Python plus que jamais incontournable en Data Science

Cet article a été publié originellement sur mydatacompany.fr

Les Data Scientists utilisent en moyenne trois langages de programmation : Python, SQL et R. Python demeure cependant le premier langage en Data Science (87%), en progression sur un an. 79% des professionnels de la Data le recommande d’ailleurs comme premier langage.

La boîte à outils du data scientist compte plusieurs indispensables, parmi lesquels la maîtrise d’un ou plusieurs langages de programmation. Et d’après l’étude « State of Data Science and Machine Learning », ces langages sont très vraisemblablement Python, SQL et R.

Le plus utilisé parmi les data scientists demeure cependant Python. Parmi les 20.000 professionnels de la data interrogés, 87% en déclarent l’usage. Il supplante ainsi largement les deux autres principaux langages que sont SQL (44%) et le R (31%).

Python, langage par défaut du data scientist

Parmi le Top 10 de la Data, on peut également citer Java, C, C++, JavaScript, Bash, MATLAB, et TypeScript. Mais l’incontournable, c’est bien Python. Son adoption a même progressé de quatre points sur un an.

Le R enregistre en revanche sur la même période un recul de 5 points. Son déclin est cependant antérieur puisqu’en 2017, ils étaient 46% de data scientists à utiliser ce langage dans le cadre de leurs tâches en data science.

87% des professionnels de la Data utilisent régulièrement du Python
87% des professionnels de la Data utilisent régulièrement du Python

Cette tendance devrait d’ailleurs se maintenir. En effet, seuls 9% des data scientists sondés recommandent R comme principal langage de développement. Au contraire, ils sont 79% à le faire concernant Python.

Les data scientists multiplient néanmoins les compétences. Ainsi, maîtriser un langage n’exclut pas la connaissance des autres. En effet, en moyenne, un data scientist déclare utiliser trois langages, et non un seul.

L’étude souligne donc avant tout la place de langage de programmation par défaut acquise ou en passe de l’être par Python dans les domaines de la science des données et du machine learning. Autre constat : un manque flagrant de diversité. Pas en termes de compétences cette fois.

Les femmes largement minoritaires en Data Science

Le BCG relevait récemment une faible féminisation des métiers de la data science avec seulement 15% des Data Scientists femmes dans le monde. Les travaux de Kaggle aboutissent au même constat avec 84% d’hommes parmi ces professionnels.

Des écarts apparaissent selon les pays cependant. Aux Etats-Unis, par exemple, les hommes représentent 79% des data scientists. Au Japon, la part des femmes n’est en revanche que de 10%. Pour le BCG, le métier demeure méconnu, voire souffre d’une mauvaise image.

« 75 % des étudiantes en sciences considèrent ce domaine comme étant trop théorique, sans impact concret sur la vie réelle ou comme relevant d’une culture ‘geek’ beaucoup trop compétitive » commentent les auteurs de l’étude menée auprès de 9000 étudiants.

Des méthodes et algorithmes de Data Science incontournables
Des méthodes et algorithmes de Data Science incontournables

La maîtrise des frameworks reste donc à ce jour une affaire d’hommes. Dans ce domaine, ce sont d’ailleurs TensorFlow et Keras qui continuent de dominer, après Scikit-learn (80%). En matière de machine learning, l’utilisation de Google Cloud AutoML a pratiquement doublé sur un an – sans dépasser les 10% néanmoins.

Autre enseignement : les méthodes plus simples, comme les régressions linéaires et les arbres de décision, sont plus utilisées que les techniques plus complexes. En revanche, les data scientists se retrouvent sur l’adoption du cloud, principalement AWS et Google Cloud. Seuls 24% boudent toujours le cloud.