Rate this post

Lorsqu’un expert du Big Data rencontre un autre expert du Big Data, le terme « Hadoop » ne tarde jamais à s’immiscer dans la conversation. Et au vu de la place centrale que le traitement des données en grand nombre est amené à prendre, le monde du marketing n’a pas fini d’entendre parler de cette technologie.

Mais au fait, qu’est précisément Hadoop ? Quel est son lien avec le Big data ? D’où sort cette technologie Open Source ? Loin des considérations techniques, voici une brève introduction à Hadoop.

 

Hadoop, qu’est ce que c’est ?

On peut sans conteste affirmer qu’Hadoop est la technologie la plus en vogue pour faire du Big Data. Mais encore ? Il s’agit en fait d’une plate-forme informatique capable de traiter de gigantesques volumes de données. Elle peut prendre en charge les données structurées (les databases), mais aussi – et c’est là son atout maitre – les données non structurées (informations contenues dans les mails, via les échanges issus des réseaux sociaux, images, fichiers audio, etc.).

D’un point de vue informatique, Hadoop est un framework Open Source écrit en Java. Il fonctionne sur le principe des grilles de calcul consistant à répartir l’exécution d’un traitement intensif de données sur plusieurs noeuds ou grappes de serveurs.

 

Des origines communes à Google et Yahoo

Cette technologie n’est pas si récente puisqu’elle remonte déjà à une dizaine d’année. En 2004,  Google cherche le moyen d’indexer plus efficacement les informations texte qu’il collecte afin de présenter de manière pertinente les résultats liés aux recherches web de ses utilisateurs. Faute de trouver une solution satisfaisante sur le marché, le moteur décide alors de bâtir sa propre plate-forme et confie cette mission à un certain Doug Cutting. Débauché quelque temps plus tard par Yahoo, l’ingénieur poursuit ses travaux pour donner naissance en 2008 au projet Hadoop. Un an plus tard, Yahoo décide de rendre public le code source d’Hadoop.

Pour l’anecdote, ce drôle de nom était celui utilisé par le jeune fils de Doug Cutting afin de désigner son doudou.

 

Une techno en constante évolution

Open Source oblige, Hadoop ne cesse d’être enrichi par des centaines de développeurs qui ajoutent progressivement de nouveaux composants, outils ou langages au framework de base. Citons par exemple Hbase, Hive ou Pig.

A l’heure actuelle, l’analyse en temps réel des données reste le talon d’Achille de ce Framework. Toutefois, la version 2 d’Hadoop (sortie en octobre 2013) devrait très prochainement être en mesure de relever ce défi.

 

Non, Hadoop n’est pas seul au monde…

Notons enfin que le développement du Big Data ne repose pas uniquement sur Hadoop. Davantage satellitaires que véritablement concurrentes du framework, d’autres technologies émergent, se renforcent, s’adaptent… Bien que Google, Yahoo, Facebook, Twitter, Linkedin et Microsoft soient à l’origine de la quasi totalité d’entre elles, toutes sont aujourd’hui devenues des projets Open Source. Sans entrer dans des comparatifs techniques réservés aux experts de l’IT, voici les principaux noms à retenir : Big Table, Map Reduce, S4, Cassandra, Storm, FlockDB, Kafka, SenseiDB, Voldemort, Cloud Numerics.

 

Découvrez l’extrait du livre blanc “Le marketing B2B réinventé par les BIG DATA”