Injection du Machine Learning dans la détection de bugs

Cet article a été publié originellement sur mydatacompany.fr

Microsoft met la data science au service de ses experts en sécurité. L’éditeur s’est doté d’un système de classification des bugs logiciels basé sur le machine learning. Les données d’entraînement sont toutefois validées par des spécialistes du métier de la sécurité.

Pas de développement logiciel sans bugs. Avec 47.000 développeurs, Microsoft comptabilise ainsi environ 30.000 bugs chaque mois dans ses logiciels. Or, certains présentent des risques en termes de sécurité.

Il est donc essentiel pour l’éditeur de pouvoir identifier ces erreurs dans le code et de corriger en priorité les plus critiques. Les professionnels de la sécurité exploitent à cette fin des outils d’automatisation. Mais ces méthodes présentent des failles.

La Data Science au service du métier sécurité

« Trop souvent, les ingénieurs perdent du temps sur des faux positifs ou passent à côté d’une vulnérabilité de sécurité critique qui a été mal classifiée » note la firme de Redmond. Afin de gagner en efficace, elle a donc rapproché Data Science et sécurité.

L’éditeur a ainsi développé un système basé sur le machine learning afin de mieux classifier les bugs logiciels. Cela suppose toutefois de disposer d’un volume suffisant de données. Or, comme le souligne Microsoft, des millions de données, relatives aux bugs notamment, sont collectées depuis 2001.

Les équipes Data Science du géant ont utilisé ces données pour développer un processus et un modèle de machine learning. Bilan : celui-ci distingue correctement failles de sécurité et simples bugs dans 99% des cas. Sur la détection des bugs de sécurité critiques et prioritaires, le modèle d’IA affiche cette fois un taux de réussite de 97%.

Pour y parvenir, l’éditeur travaille sur de l’apprentissage supervisé. Il a mobilisé ses volumes de données pré-labélisées. Le modèle d’IA a ainsi été nourri avec des données déjà classifiées (bug de sécurité, bug critique, etc.).

Et comme pour l’utilisation de l’IA dans le domaine de l’analyse d’images médicales, le système doit être capable de classer les bugs avec des niveaux de performance équivalents à ceux d’un expert humain.

Les données d’entraînement soumises aux experts sécu

C’est la raison pour laquelle les données d’entraînement soumises au modèle de machine learning ont auparavant été validées par des experts en sécurité. « Nous avons utilisé un échantillonnage statistique pour fournir aux experts en sécurité une quantité gérable de données à examiner » détaille l’éditeur.

La supervision de ces experts métier est intervenue plus tard dans le processus afin cette fois d’évaluer le modèle en production. Son évaluation s’appuie notamment sur le suivi d’un indicateur majeur (nombre moyen de bugs).

Les experts examinent aussi manuellement un échantillon aléatoire de bugs. Ils interviennent de nouveau pour valider les données avant que le modèle ne soit réentraîné. Microsoft juge d’ores et déjà le couple humain/machine plus performant.

Le niveau de précision obtenu en termes de classification amène l’éditeur à considérer qu’il détecte davantage de vulnérabilités de sécurité qu’auparavant, c’est-à-dire sans machine learning. Dans les prochains mois, Microsoft ouvrira sa méthodologie en open source sur Github.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Microsoft injecte du Machine Learning dans la détection de bugs

La Data Science au service du métier sécurité

Les données d’entraînement soumises aux experts sécu

Suggestion de contenus