L’article de cette semaine est le premier d’une série de deux sur Hadoop, avec pour thème commun l’entrée à l’âge adulte de la technologie. Cette semaine, nous nous intéressons à la fragmentation des distributions Hadoop et à ses implications.
Dans un premier temps, il est intéressant de se remémorer la solution prévalant il y a mois de deux ans. Avec l’irruption sur la scène d’Hortonworks, spin-off de Yahoo lancée au deuxième semestre 2011, Cloudera et MapR se voyaient rejoindre par une troisième start-up dédiée à Hadoop. A l’inverse de MapR qui avait fait le précoce choix d’un positionnement « entreprise » et portait un message unique avec son remplacement d’HDFS par NFS, Hortonworks et Cloudera se retrouvaient sur un créneau très proche. Afin de se différencier, les deux sociétés se livrèrent donc à une bataille assez comique sur l’étendue de leur contribution à la communauté open source Hadoop. Leur rivalité avait alors inspiré à Datameer une image que je ne résiste pas au plaisir de reprendre ici.
Au-delà de l’anecdote, le réel problème résidait dans le choix par ces différentes sociétés de travailler sur des branches distinctes d’Hadoop. La différentiation se faisait essentiellement au niveau du code source Apache utilisé, sur des fonctions de bas niveau tel que le support de Kerberos ou de la fonction append dans HDFS. L’image ci-dessous tirée du blog Apache Bigtop fournit une bonne idée des conséquences néfastes de cet émiettement.
La situation est aujourd’hui totalement différente. Certes, le nombre de distributions Hadoop a doublé, mais elles convergent toutes dans l’utilisation du socle Hadoop 2.0. Développé sous le sponsorship d’Hortonworks – la société par nature la plus proche de l’open source – Hadoop 2.0 s’impose comme le socle commun pour tous les acteurs de l’écosystème. L’effort de différentiation se déplace donc de fonctions de bas niveau vers des offres à valeur ajoutée. Celles-ci sont de trois types principaux:
- L’ajout de services additionnels sur le socle commun (SQL sur Hadoop, moteur de recherche);
- Les fonctionnalités d’administration, pour les distributions les plus génériques telles que celles de Cloudera et Hortonworks;
- L’intégration avec l’écosystème du vendeur, en particulier pour IBM, Pivotal et Intel.
Dans un article précédent, j’avais parlé de balkanisation des distributions Hadoop. C’est vrai mais au final beaucoup plus une opportunité qu’un réel problème pour l’écosystème. Hadoop a sa Yougoslavie (ou son Union Européenne, les temps changent…), c’est Hadoop 2.0!
A la semaine prochaine donc, pour justement rentrer dans le détail d’Hadoop 2.0.
Related articles
- What, Exactly, Is “Proprietary Hadoop”? Proposed: “distribution-specific.” (Gartner’s Merv Adrian blog)
- All you wanted to know about Hadoop, but were too afraid to ask: genealogy of elephants (Apache Bigtop blog)