Retrouvez Weekly sur Facebook

High-Tech

Du Big Data pour les entreprises en 90 secondes : merci Google

Avec Cloud Dataproc, Google propose une solution BigData pour les entreprises qui se déploie en 9O secondes dans le cloud

Bien que tardive comparativement aux solutions Amazon Web Service ou Microsoft Azure, Google rejoint le club sélect des solutions cloud de BigData pour les entreprises qui se déploient en quelques instants avec une facturation à l’usage.

Ce que permet Cloud Dataproc est fort utile ; il permet aux sociétés de mettre en place des solutions permettant l’accumulation massive de données en mode streaming (temps-réel), en processus batch tout en supportant les des requêtes (c’est-à-dire des recherches sur les données) et le machine learning. Ne bouger pas, nous allons tout vous expliquer ; notez simplement que pour se faire, Google permet la mise en place de pile Spark ou Hadoop dans un laps de temps de 90 secondes ; ce qui s’avère tant pratique qu’efficient pour une mise en œuvre rapide. Cloud Dataproc est ainsi le nom choisi par Google pour proposer cette pléthore de services aux entreprises.

Cloud ? BigData ?

Pour faire simple, les sociétés ont désormais le choix entre trois grands modes d’installation de leurs propres serveurs. La première, la plus classique et connue, consiste à avoir sa propre infrastructure, c’est-à-dire une installation sur site, on parle de on-premise. La seconde consiste à faire appel à un info-géreur ; celui-ci vous propose une infrastructure où tout se passe comme si l’installation était sur site, vous avez vos salles serveur dédiées et à distance qui hébergent vos propres machines. La troisième est le cloud, c’est-à-dire soit des machines virtualisées sur internet, soit des services distants mutualisés et sécurisés.

Si in fine, les sociétés optent de plus en plus pour un mix de ces solutions pour leurs applications classiques, le choix du cloud est assurément la meilleure pour les problématiques du Big Data.

En effet, le Big Data se définit comme le besoin de stocker un nombre incroyablement grand de données ne pouvant résider sur une seule machine, mais plusieurs (on parle de sharding horizontal). La caractéristique première du BigData est d’assurer une solution qui résiste à la monté d’échelle (on dit scalable), c’est-à-dire capable de supporter un nombre croissant de données par le simple ajout de nouvelles machines. Dans une application classique, ceci n’est absolument pas possible car on est limité aux caractéristiques premières des serveurs : on peut ajouter plus de mémoire (RAM), disque, processeur (on parle de sharding vertical), changer de serveur, mais la scalabitié n’est pas de mise (impossibilité d’ajouter simplement un nouveau serveur)

Autre caractéristique du Bigdata, la haute disponibilité, c’est-à-dire une non interruption des services. Par nature ce type de solution est prévu pour être toujours disponible et résister aux problématiques de panne contrairement aux architectures classiques qui exigent de l’ingénierie complémentaire (utiliser des clusters par exemple).

Si le BigData offre ces services surpuissants, c’est au prix d’infrastructures complexes exigeants plusieurs machines et configurations qui impliquent énormément de souplesse quant au déploiement. En effet, la clé de voute du Big Data est le dimensionnement, c’est-à-dire la souplesse d’adaptation au cas de figure, soit l’ajout ou le retrait de machines en fonction du besoin. Cette souplesse est difficilement atteignable sur du on-premise où se pose des problématiques concrètes comme le nombre de machines à ajouter, les prises réseaux, les prises électriques, la redondance. Pire, toute machine achetée est immobilisée, on ne la rend pas au besoin, on la paie cash.

Avec le cloud, ce type de problématique est évanoui, tout se configure simplement et se dimensionne à la demande : besoin d’une machine complémentaire ? Aucun souci. Plus besoin dune machine ? Là encore quelques clics suffisent.

Ce que propose Google avec Dataproc, c’est ainsi la possibilité de stocker des données non structurées (c’est-à-dire un peu tout et n’importe quoi) sur des serveurs Hadoop. Avec Spark, Google offre également la possibilité d’interpréter en temps-réel ce qui rentre sur le système afin de prendre un certain nombre de décisions (on parle de Stream). Enfin, avec le volume de données stockées, on peut faire du machine learning soit de l’apprentissage côté serveur pour déterminer des tendances ou orientations de ses utilisateurs ou consommateur.

La solution proposée par Google fait, tout comme pour Amzon ou Microsoft, parti d’un écosystème plus générique. Dataproc s’incorpore ainsi aisément aux autres services cloud de Google c’est-à-dire BigQuery Cloud Storage, Cloud Bigtable, Cloud Logging et Cloud Monitoring.

Et vous, quel est votre avis ? Exprimez-vous ! Réagissez à cet article.


Suivez-nous

Les auteurs