La convergence de l’analytique, du big data et du HPC est essentielle pour analyser d’énormes ensembles de données complexes

Les statistiques sont un domaine d’étude qui jusqu’ici a rarement passionné les foules mais qui suscite aujourd’hui de plus en plus d’intérêt alors que le big data est partout. En une seule journée nous disposons d’autant d’informations que nos ancêtres du XVème siècle en obtenaient sur toute une vie. 2,5 quintillions d’octets de données, un nombre qui dépasse l’imagination, sont créés chaque jour. Et il n’y a pas que le volume des données qui explose mais aussi la vitesse de création de ces données. 90 % des données mondiales actuelles ont été générées au cours des deux dernières années seulement.

Barry Bolding, Senior VP and Chief Strategy Officer at Cray Inc.

Barry Bolding, Senior VP and Chief Strategy Officer at Cray Inc.

Mais toutes ces données qui pullulent à une vitesse record se périment aussi plus vite que jamais. C’est pourquoi les entreprises et leur DSI ont ainsi bien du mal à suivre le rythme.

La principale difficulté à laquelle ils se heurtent est de savoir comment analyser rapidement les données de manière efficace pour comprendre les problèmes rencontrés au quotidien et ainsi mieux gérer l’entreprise. Ce besoin fondamental de passer au crible des montagnes de données a entraîné une explosion du marché de l’intelligence artificielle et de l’apprentissage automatique au cours des deux dernières années. Rien que sur les trois premiers trimestres de 2015, le secteur a engrangé 47,2 milliards de dollars d’investissement, avec près de 900 fournisseurs de solutions ciblant les entreprises des secteurs de la business intelligence, de la finance et de la sécurité.

Et tandis que l’apprentissage automatique capte le gros de l’attention, une autre technologie est tout aussi importante pour effectuer des analyses prédictives, en particulier lorsque la rapidité d’obtention des résultats est vitale pour l’entreprise ; il s’agit du calcul haute performance (HPC). La convergence de l’analytique, du big data et du HPC est essentielle pour pouvoir traiter, stocker et analyser d’énormes ensembles de données complexes de manière très rapide dans un environnement hautement évolutif.

Les entreprises des secteurs de la fabrication, des services financiers, de la météorologie, de la cyber-reconnaissance, des sciences de la vie et de la pharmacie, de l’exploration énergétique et bien d’autres utilisent toutes la puissance de traitement intensif des supercalculateurs pour aller toujours plus loin dans la recherche et la découverte et répondre à des questions auxquelles aucun autre système n’est en mesure d’apporter de réponse.

Calcul intensif

Plusieurs raisons expliquent pourquoi ces entreprises font appel au calcul intensif. Examinons deux d’entre elles :

  • Améliorer le développement et la conception des produits

La combinaison du big data et du HPC, en particulier dans le secteur de la fabrication, a une incidence considérable sur le développement et la conception des produits. En capturant les données des tests physiques et des avis des clients, les constructeurs automobiles, par exemple, peuvent améliorer la qualité de leurs véhicules et l’expérience offerte aux conducteurs. Le recours à la simulation et à l’analyse de données pour tester l’aérodynamique d’un nouveau modèle leur permet de rectifier ce modèle beaucoup plus rapidement qu’en procédant à des tests physiques. La modélisation des flux d’air, de l’analyse structurelle, de la consommation de carburant et de bien d’autres paramètres est aujourd’hui un outil indispensable pour produire des véhicules plus rapides (dans le cas de la Formule 1), plus sûrs et plus efficaces.

Dans un tout autre domaine, celui des sciences de la vie, l’analyse des données haute performance permet d’obtenir de précieuses informations sur la génomique et les progrès thérapeutiques, ce qui à terme facilite la découverte de nouveaux médicaments Le Broad Institute du MIT à Harvard, organisme de recherche à but non lucratif spécialisé dans l’étude et le traitement des maladies, génère aujourd’hui 14 giga-octets de données à la minute grâce à ses outils de séquençage du génome. En utilisant une solution matérielle d’analyse big data équipée de composants HPC, il parvient à obtenir les résultats de recalibrage des scores de qualité à partir de son pipeline Apache Spark Genome Analysis Toolkit (GATK4) en neuf minutes seulement au lieu de quarante auparavant.

  • S’affranchir des limites de l’évolutivité

La promesse portée par le calcul intensif est qu’il est en mesure de fédérer les technologies de supercalcul traditionnel, dont le maître-mot est l’évolutivité, et les meilleures des nouvelles solutions généralistes d’analyse des données pour fournir des plates-formes qui résolvent les problèmes les plus complexes. L’évolutivité des applications ne peut être assurée qu’à condition que les fonctions réseau et mémoire des systèmes soient efficaces, évolutives et à la hauteur. Les technologies de mémoire partagée et de faible latence du réseau développées pour assurer l’évolutivité du supercalcul permettent aux solutions d’analyse de gagner elles-aussi en évolutivité. La flexibilité et la richesse fonctionnelle sont les principaux avantages du cloud. Or pour les maximiser, il sacrifie le contrôle de l’architecture par l’utilisateur et en cela échoue à résoudre la problématique des applications, qui est plus ample et complexe. Quel que soit leur secteur d’activité, les entreprises doivent trouver le juste milieu entre profiter de la flexibilité du cloud et exploiter la puissance des systèmes évolutifs. C’est la condition pour obtenir le meilleur retour sur investissement, marquer des points et au final occuper la première place à l’heure où l’analyse haute performance domine le marché.

HPC : la solution pour résoudre les questions restées jusqu’ici sans réponse

La décision de se doter d’une solution de calcul intensif dépend au bout du compte de la quantité de données dont on dispose et de la vitesse à laquelle on a besoin de les analyser.

Pour les DSI confrontés aux problèmes actuels les plus complexes, le fait de maîtriser, décortiquer et analyser des données afin de déceler des informations inconnues jusqu’alors apporte un avantage concurrentiel majeur. Les ensembles de données dynamiques contribuent à orienter les décisions stratégiques, booster l’innovation, faire émerger de nouveaux produits, améliorer la relation client, etc.

C’est pourquoi si vous avez à cœur de préserver la productivité de votre environnement, il est peut-être temps de mettre sur pied votre stratégie en matière de de calcul intensif.