Cloudera | Le billet hebdo

Étiquette : Cloudera
- Après Hadoop, Spark?
  
  Publié à 9 h 28 min par Ghislain Mazars, le Mai 16, 2014
  Au moment où Hadoop accomplit sa mue d’une technologie prometteuse « réservée » aux acteurs de l’Internet en une plateforme généraliste de gestion de données pour les entreprises, une nouvelle solution, Spark, suscite un intérêt croissant. Confidentielle hors des cercles universitaires jusqu’en 2013, la technologie Spark d’analyse de données distribué, en mémoire, bénéficie depuis d’une attention soutenue. Spark est ainsi disponible sur Amazon EC2 depuis le printemps 2013 et le premier Spark Summit s’est déroulé à San Francisco en décembre 2013.
  
  En comparaison d’Hadoop démarré en 2005, Spark est néanmoins un projet encore récent puisqu’il a vu le jour en 2009 au sein de l’Université de Berkeley. Pour autant, Spark rassemble d’ores-et-déjà une importante communauté de développeurs, avec plus de 120 contributeurs de 25 organisations différentes référencés. Le système suit en outre un rythme régulier de mises à jour, avec une nouvelle « release » tous les 6 mois. Surtout, Spark est désormais intégré à toutes les principales distributions Hadoop. WANDisco avait en l’espèce ouvert le bal en adoptant Spark dès septembre 2013. Depuis, aussi bien Cloudera que MapR ont fait le choix de Spark, et Hortonworks vient de les rejoindre comme l’avait auparavant dévoilé Eric Baldeschwieler dans son blog. De fait, loin de se positionner comme une technologie alternative ou concurrente à Hadoop, Spark et la société supportant le projet, Databricks, ont fait le choix pragmatique de se fondre dans l’écosystème Hadoop.
  
  La complémentarité entre Spark et Hadoop est en effet forte. D’un coté Spark n’intègre pas nativement de couche de persistence des données, et l’intégration avec HDFS et HBase est tout à fait naturelle dans cette perspective. De l’autre, Spark comble opportunément deux faiblesses de l’écosystème Hadoop:
  - Le support de traitements en temps-réel « in-memory », en particulier pour des applications de type analyse prédictive et machine learning. Hadoop offre donc désormais au sein de son écosystème open source une alternative à des solutions propriétaires telles que SAP HANA ou SAS LASR;
  - Des APIs de programmation simples et élégantes, soit un des principaux reproche adressés à Hadoop MapReduce en dépit de couches d’abstraction comme Pig, Cascading ou Scalding.
  Par ailleurs, Spark, tout comme Hadoop en son temps, se développe sous l’oeil attentif et bienveillant de Yahoo. La société utilise Spark en production depuis 2012, et a largement contribué à rapprocher les deux systèmes. En particulier, c’est Yahoo qui a été à l’initiative du port de Spark sur YARN, avec quatre employés de Yahoo contribuant à ce développement stratégique. Cette intégration permet d’opérer Spark au sein même d’un cluster Hadoop 2.0, avec une gestion des ressources coordonnées entre le moteur d’exécution Spark et d’autres environnements de traitements comme MapReduce.
  
  S’il est tout à fait possible de faire fonctionner Spark indépendamment d’Hadoop, les efforts de Yahoo, l’implication des principales distributions Hadoop et la stratégie d’entreprise de DataBricks poussent donc à une intégration étroite entre ces deux systèmes. Spark a ainsi vocation à devenir un composant essentiel d’une architecture Hadoop, d’une importance au moins égale – et probablement supérieure à terme – à MapReduce.
  
  Related articles
  - Cloudera Offers Apache Spark For Hadoop Big Data (techweekeurope.co.uk)
  - MapR Integrates the Complete Spark Stack (DataBricks blog)
  - Spark now in CDH, HDP and MapR (@jeric14’s blog)
  Partager :
  Cliquez pour partager sur LinkedIn(ouvre dans une nouvelle fenêtre)
  Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
  Cliquer pour envoyer un lien par e-mail à un ami(ouvre dans une nouvelle fenêtre)
  J’aime chargement…
  Posté dans Hadoop, Non Classé | 0 Commentaire | Tagué Cloudera, DataBricks, Eric Baldeschwieler, Hadoop, Hortonworks, MapReduce, Spark, Yahoo
- De quoi Hadoop est-il le nom?
  
  Publié à 10 h 18 min par Ghislain Mazars, le avril 28, 2014
  Le terme Hadoop serait-il sur le point de devenir aussi nébuleux que celui de Cloud? Sous la pression des différents vendeurs, le vocabulaire de l’IT tend à acquérir une plasticité infinie, au point de souvent perdre toute substance. Objet de toutes les attentions et d’investissements vertigineux, Hadoop ne fait pas exception, et il devient de plus en plus difficile de définir le périmètre exact d’Hadoop.
  
  Pourtant, tout semblait simple au départ: Hadoop, c’était la déclinaison Yahoo / Apache des concepts établis par Google avec le système de fichiers distribués GFS et le moteur d’exécution répartie MapReduce. Hadoop = HDFS + MapReduce, ainsi pour faire bonne mesure qu’un certain nombre d’utilitaires de communication référencés sous le terme Hadoop Commons. Résumé séduisant mais malheureusement assez éloigné de la réalité. En effet, la distribution MapR, chronologiquement la seconde dans l’écosystème Hadoop après celle de Cloudera, a fait le choix de remplacer HDFS par NFS. L’Hadoop de MapR, c’est donc NFS exposant une API HDFS + MapReduce… Par ailleurs, HBase, base NoSQL s’appuyant sur HDFS, est depuis le début intégrée aux différentes distributions commerciales d’Hadoop. Au coeur du déploiement Hadoop de Facebook, la base est ainsi supportée à la fois par les tenants d’HDFS, Cloudera et Hortonworks, que par MapR qui offre une API HBase depuis sa plateforme et met particulièrement en valeur ce composant. Surtout, HBase répond à des cas d’utilisation sensiblement différents de MapReduce, accès rapides en lecture / écriture aux données pour l’un, traitements massifs, en batch pour l’autre. Au-delà de la technologie, c’est donc la délimitation du marché adressé par Hadoop qui se trouve altérée par l’inclusion d’HBase au sein d’Hadoop.
  
  Et ce n’était qu’un début! Avec l’introduction de YARN, développement conjoint de Yahoo et d’Hortonworks, Hadoop s’affranchit largement de MapReduce pour devenir une plateforme de gestion de données supportant une variété de moteurs d’exécution (SQL interactif, streaming, recherche).
  
  Le nombre de composants ou projets – sponsorisés par la fondation Apache, sous license ASF ou propriétaires – inclus dans les différentes distributions explose. Entre 10 et 20 selon les distributions, et la créativité de l’écosystème semble sans fin si l’on ajoute à cela les nécessaires partenariats avec des acteurs déjà établis. Une base Vertica sur une plateforme MapR, est-ce encore de l’Hadoop?
  
  A ce stade, il est donc important de revenir aux caractéristiques fondamentales d’Hadoop, non pour revenir à la simple équation Hadoop = HDFS + MapReduce, mais pour mettre en évidence l’essence de la plateforme. Hadoop, avant tout, représente une évolution fondamentale dans l’architecture de gestion des données. De serveurs de fichiers NetApp, Yahoo est passé avec Hadoop à 1/ un système de fichiers distribués, 2/ s’appuyant sur du matériel banalisé, à bas coût, 3/ accomodant une absence de schéma à l’écriture et 4/ permettant une distribution des traitements au plus près des données. Soit un changement radical par rapport à des systèmes verticalement intégrés, propriétaires, exigeant une modélisations stricte du schéma de données et des processus lourds d’ETL…
  
  Ainsi défini, Hadoop apparait beaucoup plus constant dans le temps. Les fondamentaux de la plateforme restent inchangés, et YARN joue désormais le rôle d’un démultiplicateur et d’un aimant pour celle-ci. Hadoop est donc non seulement le « data lake » ou « hub » ou « river », mais surtout le support pour l’exploitation et la présentation aux utilisateurs de ces données depuis un même cluster. En d’autres termes, l’O/S du Big Data, supportant une variété d’applications aux liens plus ou moins étroits avec l’écosystème Apache originel.
  
  Related articles
  - Hadoop is in the Mind of the Beholder (Merv Adrian, Gartner blog)
  - Why the world should care about Hadoop 2 (GigaOm)
  Partager :
  Cliquez pour partager sur LinkedIn(ouvre dans une nouvelle fenêtre)
  Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
  Cliquer pour envoyer un lien par e-mail à un ami(ouvre dans une nouvelle fenêtre)
  J’aime chargement…
  Posté dans Hadoop | 0 Commentaire | Tagué Cloudera, Hadoop, HBase, Hortonworks, MapR, YARN
- Hadoop, le temps de la maturité? (2/2)
  
  Publié à 16 h 49 min par Ghislain Mazars, le novembre 25, 2013
  La release d’Hadoop 2.0 marque un point d’inflexion significatif dans l’évolution d’Hadoop. Jusqu’alors principalement orientée « batch processing » avec le moteur d’exécution de traitements MapReduce, Hadoop accomplit sa mue en une plateforme complète de gestion des données.
  
  Afin d’arriver à ce stade, une restructuration en profondeur de l’architecture a été engagée sous l’impulsion d’Hortonworks, avec l’introduction du moteur de scheduling YARN. Pivot de la nouvelle architecture d’Hadoop, éprouvé chez Yahoo, YARN rompt le cordon ombilical qui reliait HDFS et MapReduce en s’intercalant entre le système de stockage distribué HDFS et les différents systèmes d’exécution. L’ordonnancement des tâches est maintenant une fonction bien isolée, et YARN facilite la cohabitation de différents moteurs de traitement au sein de la même plateforme Hadoop (prise en charge de la gestion des ressources du cluster aux niveaux mémoire, CPU, I/O).
  
  Comme le montre le diagramme d’Hortonworks ci-dessus, MapReduce se présente dès lors comme l’une des multiples briques de traitement d’Hadoop. Ce qui, soit dit en passant, est beaucoup moins révolutionnaire qu’il n’y parait. HBase, au fil des années, avait en effet acquis une importance prépondérante au sein de nombreux clusters Hadoop. C’est ainsi sur la base NoSQL que Facebook s’appuie pour stocker, analyser et délivrer l’ensemble des messages transitant sur le réseau social.
  
  Les bénéfices de YARN et d’Hadoop 2.0 n’en sont pas moins sont clairs. Aux atouts traditionnels d’Hadoop (scalabilité linéaire sur matériel banalisé, capacité à stocker aussi bien des données structurées que non structurées), la version 2.0 apporte le support « natif » de différents moteurs de traitement et d’analytique (SQL, Search, NoSQL…). Il est désormais possible de combiner au sein d’Hadoop un pré-traitment des données avec du batch processing MapReduce et un traitement ou une structuration via des modules tels que la recherche ou le traitement temps-réel.
  
  Avec la 2.0, Hadoop s’est donc transformé en plateforme multi-usages, une sorte de système d’exploitation des big data. Les différentes éditeurs de distributions Hadoop ont d’ailleurs tenu à marquer ce changement d’ère en adaptant leur marketing: Cloudera parle maintenant d' »Enterprise Data Hub », Hortonworks d' »Enterprise Data Platform » et le concept d' »Hadoop Data Lake » a été récemment popularisé. Pour autant, le chemin à parcourir reste long pour réaliser pleinement le potentiel de la plateforme: en s’ouvrant à des applications nouvelles par rapport au traitement par batch MapReduce, Hadoop s’éloigne aussi de la zone de confort de ses premiers succès…
  
  Related articles
  - HDP 2.0: Rise of the Hadoop Data Lake (Datanami)
  - The Enterprise Data Hub (Cloudera’s Mike Olson blog)
  - OLTP clearly in Hadoop’s future, Cutting says (Datanami)
  Partager :
  Cliquez pour partager sur LinkedIn(ouvre dans une nouvelle fenêtre)
  Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
  Cliquer pour envoyer un lien par e-mail à un ami(ouvre dans une nouvelle fenêtre)
  J’aime chargement…
  Posté dans Actualités, Technologie | 0 Commentaire | Tagué Cloudera, Data hub, Data platform, Facebook, Hadoop, Hadoop 2.0, Hortonworks, YARN
- Hadoop, le temps de la maturité? (1/2)
  
  Publié à 8 h 48 min par Ghislain Mazars, le novembre 18, 2013
  L’article de cette semaine est le premier d’une série de deux sur Hadoop, avec pour thème commun l’entrée à l’âge adulte de la technologie. Cette semaine, nous nous intéressons à la fragmentation des distributions Hadoop et à ses implications.
  
  Dans un premier temps, il est intéressant de se remémorer la solution prévalant il y a mois de deux ans. Avec l’irruption sur la scène d’Hortonworks, spin-off de Yahoo lancée au deuxième semestre 2011, Cloudera et MapR se voyaient rejoindre par une troisième start-up dédiée à Hadoop. A l’inverse de MapR qui avait fait le précoce choix d’un positionnement « entreprise » et portait un message unique avec son remplacement d’HDFS par NFS, Hortonworks et Cloudera se retrouvaient sur un créneau très proche. Afin de se différencier, les deux sociétés se livrèrent donc à une bataille assez comique sur l’étendue de leur contribution à la communauté open source Hadoop. Leur rivalité avait alors inspiré à Datameer une image que je ne résiste pas au plaisir de reprendre ici.
  
  Au-delà de l’anecdote, le réel problème résidait dans le choix par ces différentes sociétés de travailler sur des branches distinctes d’Hadoop. La différentiation se faisait essentiellement au niveau du code source Apache utilisé, sur des fonctions de bas niveau tel que le support de Kerberos ou de la fonction append dans HDFS. L’image ci-dessous tirée du blog Apache Bigtop fournit une bonne idée des conséquences néfastes de cet émiettement.
  
  La situation est aujourd’hui totalement différente. Certes, le nombre de distributions Hadoop a doublé, mais elles convergent toutes dans l’utilisation du socle Hadoop 2.0. Développé sous le sponsorship d’Hortonworks – la société par nature la plus proche de l’open source – Hadoop 2.0 s’impose comme le socle commun pour tous les acteurs de l’écosystème. L’effort de différentiation se déplace donc de fonctions de bas niveau vers des offres à valeur ajoutée. Celles-ci sont de trois types principaux:
  - L’ajout de services additionnels sur le socle commun (SQL sur Hadoop, moteur de recherche);
  - Les fonctionnalités d’administration, pour les distributions les plus génériques telles que celles de Cloudera et Hortonworks;
  - L’intégration avec l’écosystème du vendeur, en particulier pour IBM, Pivotal et Intel.
  Dans un article précédent, j’avais parlé de balkanisation des distributions Hadoop. C’est vrai mais au final beaucoup plus une opportunité qu’un réel problème pour l’écosystème. Hadoop a sa Yougoslavie (ou son Union Européenne, les temps changent…), c’est Hadoop 2.0!
  
  A la semaine prochaine donc, pour justement rentrer dans le détail d’Hadoop 2.0.
  
  Related articles
  - What, Exactly, Is “Proprietary Hadoop”? Proposed: “distribution-specific.” (Gartner’s Merv Adrian blog)
  - All you wanted to know about Hadoop, but were too afraid to ask: genealogy of elephants (Apache Bigtop blog)
  Partager :
  Cliquez pour partager sur LinkedIn(ouvre dans une nouvelle fenêtre)
  Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
  Cliquer pour envoyer un lien par e-mail à un ami(ouvre dans une nouvelle fenêtre)
  J’aime chargement…
  Posté dans Technologie | 0 Commentaire | Tagué Cloudera, Hadoop, Hadoop 2.0, Hadoop distributions, Hortonworks, IBM, Intel, MapR, Pivotal
- Oracle et Hadoop: une histoire encore à écrire
  
  Publié à 7 h 45 min par Ghislain Mazars, le octobre 6, 2013
  Sans que cela fut prémédité, cet article s’inscrit dans la continuité de mon billet précédent couvrant l’implication de LinkedIn dans la communauté Hadoop. Aujourd’hui, c’est Oracle qui nous fournit matière à nous interroger sur la dynamique de l’écosystème Hadoop. De toute évidence, Oracle est parmi les acteurs traditionnels de l’informatique celui qui a le plus à perdre de l’émergence d’Hadoop. Pour autant, la firme de Redwood est loin d’être inactive.
  
  Dès 2011, Oracle s’est positionnée comme un acteur majeur de l’écosystème Hadoop, avec l’annonce puis le lancement de sa « Big Data Appliance ». Cette offre clé en main, caractérisée par l’intégration du matériel et du logiciel dans une « appliance » haut de gamme, est certes quelque peu antinomique avec l’approche « scale out » de la plateforme Hadoop… Elle n’en est pas moins significative de la volonté d’Oracle de ne pas se laisser dépasser par la vague Big Data.
  
  Pour autant, ce positionnement produit précoce ne s’est pas accompagné d’un fort investissement en ingénierie sur la plateforme. Oracle s’appuie sur la communauté Hadoop, mais n’intervient pas réellement dans le développement de la technologie. Ainsi la dernière mise à jour de l' »appliance » annoncée fin septembre apporte des fonctionnalités de sécurité déjà présentes dans le code open-source Apache, avec simplement une intégration dans un environnement Oracle.
  
  L’évolution des partenariats de la société fournit un autre témoignage du positionnement encore ambigu d’Oracle sur Hadoop. L' »Appliance Big Data » a été réalisée en partenariat avec Cloudera, et intègre la distribution Hadoop de cet éditeur. Certains commentateurs ont d’ailleurs vu à l’époque dans cette alliance le prémisse d’une acquisition de Cloudera par Oracle. Il n’en a rien été, et Cloudera a jusqu’ici réussi à se développer indépendamment de ce partenaire encombrant. Le premier distributeur Hadoop apparaît aujourd’hui autant comme une alternative et un concurrent à Oracle que comme une proie potentielle pour la firme de Larry Ellison. Même si bien évidemment, un retournement n’est pas à exclure compte tenu de la capacité financière et stratégie d’Oracle en matière d’acquisitions!
  
  En parallèle du partenariat avec Cloudera, Oracle se tourne donc désormais vers la distribution d’Intel pour consolider son offre Hadoop. Le message envoyé aux clients est simple: seuls des acteurs solides, bien établis sont à même de fournir une solution Hadoop éprouvée et adaptée à l’informatique d’entreprise. Et quoi de mieux dans cette perspective qu’une solution Oracle – Intel avec un fort accent mis sur la sécurité? Quant à celui envoyé à l’industrie, il est tout aussi clair: Oracle dispose d’options, la balkanisation actuelle des distributions Hadoop sert ses intérêts et d’autres annonces et rebondissements sont à attendre.
  
  Related articles
  - Oracle Big Data Appliance Secures Big Data in the Enterprise (oracle.com)
  - Intel and Oracle Join Hands Over Hadoop (EnterpriseTech)
  Partager :
  Cliquez pour partager sur LinkedIn(ouvre dans une nouvelle fenêtre)
  Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
  Cliquer pour envoyer un lien par e-mail à un ami(ouvre dans une nouvelle fenêtre)
  J’aime chargement…
  Posté dans Actualités | 1 commentaire | Tagué Cloudera, Hadoop, Intel, Oracle