Tour d’horizon des méthodes d’intelligence artificielle utilisées dans les défis EIG 3

21 aout 2019 par Antoine Augusti, EIG Link

Le programme Entrepreneur(e)s d’Intérêt Général fait la part belle à la circulation des données et à leur exploitation. Pour la troisième promotion, 11 défis sur 15, portés par plusieurs administrations et portant sur des thématiques variées, expérimentent des techniques de pointe en intelligence artificielle. Nous vous présentons ici quelques cas d’usage de ces méthodes au sein de l’administration.

Le programme EIG : une opportunité d’expérimentation pour l’administration

Qu’est-ce que le programme EIG ?

Le programme Entrepreneur(e)s d’Intérêt Général est porté par Etalab, service du premier ministre qui ouvre et valorise les données publiques. Il a pour objectif de faire travailler ensemble des personnes extérieures à l’administration aux compétences numériques pointues et des agents publics engagés dans une démarche d’innovation. Les entrepreneur(e)s d’intérêt général sont réparti(e)s en binômes ou trinômes pluridisciplinaires. Avec leurs mentors, ils ont 10 mois pour relever un défi d’amélioration du service public à l’aide du numérique et des données.

Faire de l’intelligence artificielle dans l’administration

Dans la quasi totalité des administrations, les défis data science du programme EIG sont une opportunité pour les administrations d’expérimenter des projets reposant sur l’exploitation de données. C’est pourquoi les entrepreneur(e)s ont rencontré plusieurs difficultés : devoir expliquer leur métier, devoir exposer les limites et les prérequis pour appliquer des méthodes d’intelligence artificielle, travailler avec peu de données ou des données difficilement exploitables, ne pas disposer tout de suite d’un environnement de travail propice à la pratique de la data science (développement local et serveurs). Pour surmonter ces difficultés, les entrepreneur(e)s ont organisé plusieurs présentations de vulgarisation et mené des formations à destination des agents. Ils ont également rédigé plusieurs notes à destination de leur hiérarchie pour lever des freins ou saisir des opportunités. Grâce à cela ils ont pu implémenter des méthodes d’intelligence artificielle dont voici quelques cas d’usage.

3 hommes travaillent ensemble autour d’un ordinateur. Gabriel Bastard, Quentin Loridant et Antoine Augusti échangent sur les moteurs de règles

Le traitement automatique du langage au service de la justice et du code du travail

Deux défis sont liés à la justice : Open Justice et DataJust. Le premier oeuvre pour ouvrir la jurisprudence par la pseudonymisation des données et le second vise à construire un référentiel d’indemnisation des préjudices corporels. ExploCode s’attache à rendre le droit du travail lisible, accessible et compréhensible. Ces défis utilisent des algorithmes de traitement automatique du langage (natural language processing). Les deux premiers s’appuient sur les décisions de justice tandis que le défi ExploCode traite des documents législatifs, des conventions, des accords de branches et des questions/réponses concernant le droit du travail.

Un enjeu pour ces défis est de reconnaître des entités nommées (named-entity recognition) afin de pseudonymiser les données ou de réaliser des tâches de classification (regrouper des préjudices corporels ou des thématiques du droit du travail). Pour accomplir ces tâches, les EIG utilisent des avancées récentes du domaine, notamment les méthodes de Flair embeddings, ELMo(Embeddings from Language) ainsi que des réseaux de neurones bi-LSTM (bidirectional Long Short-Term Memory) couplés à un CRF (Conditional Random Fields), une approche robuste et fiable. L’utilisation de Flair se justifie par le fait que les vecteurs contextuels permettent de rendre compte des différents sens que peuvent prendre les mots selon le contexte. En complément de ces techniques, les EIG utilisent des techniques habituelles de traitement automatique du langage : règles déterministes à bases d’expressions régulières, tf-idf (term frequency - inverse document frequency), word embedding.

Notons que le défi OpenJustice bénéficie d’un corpus de décisions de justice conséquent : près de 3 millions de décisions de justice en base, une partie étant déjà pseudonymisée (les éléments identifiants à caractère personnel ont été retirés) et une plus petite partie annotée. Dans ce dernier cas, une classe (nom, prénom, adresse) est attribuée aux entités identifiantes de la décision afin d’entraîner des algorithmes. Ceci a été rendu possible par l’utilisation de logiciels de pseudonymisation en place depuis plusieurs années et par le travail de 10 annotateurs à temps plein au sein de la Cour de cassation.

Assister les juridictions financières avec des techniques de recherche d’information et de fouilles de textes

Le défi Plume assiste les juridictions financières au sein de la Cour des comptes. Entre autres, ce défi porte sur l’analyse de corpus documentaires, l’extraction d’entités nommées et l’utilisation de moteurs de recommandation. Les données sont composées de rapports, de recommandations, de comptes-rendus. Les techniques de traitement du langage utilisées sont le basique tf-idf, TextRank, LSA (latent semantic analysis) et les réseaux de neurones récurrents RNN. La recherche et la recommandation se fait à l’aide de bases de données orientées recherche, en l’occurrence ElasticSearch.

Classifier des millions d’images pour fiabiliser le constat des infractions

Le défi IA Flash fiabilise la constatation des infractions au sein du Ministère de l’Intérieur et de l’Agence nationale de traitement automatisé des infractions (ANTAI). Ce défi se concentre sur le traitement et la classification d’images. Il traite des millions d’images de radars automatiques en charge de relever les infractions routières. Les EIG ont recours à des techniques de traitement d’images et réalisent des classifications pour reconnaître automatiquement la marque et le modèle de véhicules en infraction. L’implémentation d’un réseau de neurone convolutif résiduel, entraîné parallèlement sur plusieurs processeurs graphiques (GPU) compte tenu du volume important de données d’apprentissage, donne déjà de bons résultats. Vous pouvez tester leur modèle de classification en ligne.

J’ai été agréablement surpris de découvrir un patrimoine de données riche : images (radars, vidéoprotection), structurés et référencées (données de titres, visa, carte d’identité, permis de conduire), textes.

Cristian Perez Brokate, datascientist au sein du projet IA Flash

Le défi CibNav aide au contrôle des navires professionnels à la Direction des affaires maritimes. Il met en oeuvre des techniques de régression et de classification pour répondre à la question : est-il critique de procéder au contrôle de tel navire professionnel ? Le but est d’assurer la sécurité du navire et de l’équipage. Ils utilisent des techniques éprouvées d’apprentissage automatique telles que des arbres de décisions, des SVM (Support Vector Machine), des méthodes des k plus proches voisins ou encore des Generalized Additive Models. Ces algorithmes ont été choisis en raison de leur interprétabilité, condition nécessaire à l’adoption de l’outil par les agents en charge des contrôles.

Endiguer la fraude à l’aide de graphes

Le défi Adler lutte contre les comportements financiers illicites au Ministère de l’Action et des comptes publics, tandis que Polygraphe améliore la confiance des consommateurs en détectant des faux avis sur Internet à la Direction générale de la concurrence, de la consommation et de la répression des fraudes (DGCCRF). Ils utilisent les données pour prévenir et lutter contre des comportements illicites. Ils se reposent sur des données structurées ou semi-structurées et mettent en oeuvre diverses techniques de traitement du langage naturel, de détection d’anomalies et d’analyses de graphes. Les outils de fouilles de données mis en oeuvre grâce à ces techniques permettent à des agents de cibler plus finement les contrôles.

Une communauté data science au cœur de l’administration

Pour promouvoir une culture de l’expérimentation dans l’administration, le programme EIG encourage les data scientists à entretenir des liens avec le monde de la recherche, à utiliser des logiciels libres et à s’intégrer à la communauté des data scientists dans l’Etat.

Deux hommes et une femme sont assis autour d’une table avec deux ordinateurs. Ils discutent et échangent. Kim Montalibet et Cédric Malherbe, les EIG du défi DataJust, présentent leurs outils à Paul-Antoine Chevalier, data scientist à Etalab, lors du demo day interne organisé en juin 2019.

Les administrations s’inspirent de la recherche

Les EIG ont des carrières variées : ils étaient auparavant indépendants, en contrat dans le secteur privé, dans le monde associatif ou en doctorat. Plusieurs data scientists sont proches de la recherche : certains sont titulaires d’un doctorat en apprentissage automatique, d’autres souhaitent commencer une thèse après le programme EIG tandis que certains rédigent des articles qu’ils ont soumis à des conférences. Par ailleurs, tous les défis s’inspirent d’articles de recherche ou de logiciels libres émanant d’articles de recherche disponibles librement en ligne sur des sites tels que arXiv ou HAL grâce à leur publication en open access.

Les défis data science reposent sur des logiciels libres

Les défis data science EIG utilisent tous le langage Python et reposent sur des logiciels libres bien connus de la communauté : Jupyter, scikit-learn, spaCy, PyTorch, NLTK, Kepler Mapper, NumPy, TextRank, Gensim et bien d’autres. Les projets EIG ont des objectifs d’ouverture de leurs outils et de librairies, on peut donc s’attendre à des contributions et des publications de logiciels libres d’ici la fin de l’année de leur part. L’équipe d’accompagnement des EIG les aide dans cette ouverture. Dans la continuité, plusieurs défis réfléchissent aux meilleures façons de publier leurs données d’entraînement en open data ou de mettre à disposition des modèles déjà entraînés.

Etalab au coeur de la politique de la donnée

Le programme Entrepreneur(e)s d’Intérêt Général est coordonné par Etalab. Grâce au portefeuille important de défis data science, des collaborations entre EIG et administrations se nouent. Par ailleurs, les EIG interagissent avec et enrichissent les écosystèmes animés par Etalab tels que le Lab IA, le pôle data science d’Etalab ou les appels à manifestation d’intérêts intelligence artificielle. Toutes ces interactions structurent une communauté open data science d’acteurs publics engagés pour mettre en oeuvre des méthodes de data science au service des politiques publiques.

PS : cet article est rédigé conjointement avec les datascientists de la promotion 3 du programme EIG. Merci à toutes et tous.