Comment sauvegarder les données Big Data ?

La plupart des PME sont encore novices en ce qui concerne le Big Data. Si ces dernières veulent expérimenter sans risque toutes les idées et options possibles, elles doivent avant tout être en mesure de protéger l’ensemble de leurs données. Mais contrairement à ce que l’on pourrait penser, protéger le Big Data est loin d’être anodin.

Daniel de Prezzo, Head of Technologies Southern Europe chez Veritas Technologies

Daniel de Prezzo, Head of Technologies Southern Europe chez Veritas Technologies

Le Big Data promet aux petites et moyennes entreprises de nouvelles perspectives pour les aider à garder une longueur d’avance sur leurs concurrents. La seule idée qu’elles puissent en tirer des bénéfices est aujourd’hui suffisante pour les convaincre de se lancer dans l’aventure. Ces dernières peuvent vite profiter de pratiques efficaces et d’approches structurées et reconnues dans le secteur.

Il est cependant important de noter que si des erreurs ou des défaillances peuvent venir corrompre les données, les entreprises se doivent de pouvoir revenir à une version ultérieure pour continuer les analyses. Cette action doit d’ailleurs être indépendante de l’infrastructure technique sous-jacente, et les risques restent similaires, qu’une grande société d’analyse de données s’appuie uniquement sur les services des plus grands fournisseurs de cloud, qu’elle associe son propre matériel et logiciel à des services cloud, ou qu’elle manipule les éléments les plus importants sur sa propre infrastructure.

L’importance de la sauvegarde de données ?

Le plus grand danger ne vient pas des plates-formes, des services ou des infrastructures, les développeurs d’applications ainsi que les fournisseurs de services cloud ayant mis en œuvre nombre de méthodes de maintenance préventive au fil des années, qui leur permettent de garantir la meilleure disponibilité de leurs modules Big Data. Ici, c’est le facteur humain qui a la plus grande incidence. En effet, dans une étude récente, Kroll Ontrack, une entreprise de récupération de données, pointe les erreurs humaines comme étant la cause la plus importante de perte de données (84 %) : un clic de souris imprudent ou une mauvaise configuration du système et les données essentielles de l’entreprise s’envolent.

Les data analysts veulent pouvoir travailler les données avec de nouveaux algorithmes, afin d’avoir un regard neuf sur l’information et, idéalement, acquérir de nouvelles connaissances. Avec la multitude d’étapes nécessaires à l’analyse, toutes sortes d’erreurs peuvent survenir à tout moment et ainsi corrompre la base de données, ou simplement produire des résultats inutiles.

Avec un manque de sauvegardes, les conséquences peuvent être considérables. Par exemple, une entreprise du secteur de la distribution a dû re-effectuer un inventaire complet de la situation dans toutes ses filiales, les entrées individuelles ayant été corrompues dans l’environnement Big Data. Personne ne pouvait dire avec certitude quelles valeurs étaient exactes et l’ensemble des données ont dû être à nouveau passées en revue. En conséquence, la société a rapidement décidé de sauvegarder son Big Data.

Les autres risques sont probablement déjà bien connus pour d’autres usages. Des parties indispensables de l’infrastructure, telles que la base de données, peuvent défaillir ou être piratées. Les développeurs d’applications lancent de nouvelles versions et fonctionnalités sur le marché. Durant les mises à jour, des problèmes comme des erreurs peuvent se produire, et rendre inopérant le module Big Data. Dans tous les cas, il est judicieux de revenir rapidement à une version précédente pour pouvoir reprendre son analyse. Enfin, un data analyst peut vouloir sauvegarder et archiver l’état particulier d’une analyse importante afin de pouvoir la réexaminer plus tard.

Bienvenue dans l’univers Big Data

La plupart des PME investissent dans un module d’application de grands fournisseurs de services cloud pour acquérir leur première expérience Big Data, sans avoir à engager beaucoup de ressources. Qu’il s’agisse d’Amazon, d’IBM, de Google ou de Microsoft, chacun des fournisseurs de services permet aux entreprises de commencer avec des investissements contrôlés et de choisir un modèle purement basé dans le cloud.

Les fournisseurs eux-mêmes agissent selon un modèle de responsabilité partagée, dans lequel l’entreprise a sa part de responsabilité pour les données et leur conformité. En cas de corruption ou de perte de données, la responsabilité de la reconstruction incombe à l’entreprise elle-même. L’étude Truth in Cloud de Veritas l’a clairement démontré, en effet si les fournisseurs proposent souvent aux entreprises des méthodes de protection intégrées aux modules d’application en tant que fonctionnalité, chaque fournisseur de cloud utilise une approche différente avec ses propres stratégies et consoles, incompatibles avec les autres environnements. Ainsi, si une entreprise utilise l’analyse Big Data dans le cloud provenant de différents fournisseurs, les équipes cloud devront composer avec les différentes technologies et comprendre ce qui se passera réellement lorsqu’ils restaureront ces données.

Sauvegarder, oui mais comment ?

Qu’elles soient purement basées dans le cloud ou en usage partagé, ou qu’elles soient situées dans le data center, chacune de ces approches du Big Data sont très dynamiques, la plupart du temps distribuées, volumineuses, virtualisées et poussent rapidement les systèmes de sauvegarde traditionnels à leurs limites.

Si le fournisseur de sauvegarde domine toutes les plates-formes modernes et anciennes, les charges de travail et les diverses grandes architectures de données, l’entreprise peut couvrir et contrôler de manière centralisée toutes les exigences de sauvegarde avec un seul logiciel, ce qui se reflétera massivement dans les coûts de fonctionnement de la sauvegarde. Dans l’ensemble, ces fonctionnalités sont essentielles pour couvrir les grands environnements de données d’aujourd’hui et en même temps pour garantir à l’entreprise que le concept de sauvegarde est à l’épreuve du temps.