L’Agence Erasmus+ fait le choix de l’efficacité avec l’analyse de données par IA

En décembre 2024, l’Agence Erasmus+ localisée à Bordeaux intègre dans son système d’information une solution d’IA. Elle lui confère ainsi la possibilité de préanalyser massivement une partie de ses documents administratifs.

Erasmus + face au défi de l’extraction de données

Le programme Erasmus+ est le programme européen pour l’éducation, la formation, la jeunesse et le sport. Mais il n’est pas destiné qu’aux seuls étudiants. Il est ouvert à tous publics dans les domaines de l’éducation et de la formation, formelle ou non formelle. Lancé en 1987 sous l’égide de la Commission européenne, Erasmus+ tisse des liens bien au-delà des frontières européennes. Il relie en effet les 27 États membres de l’UE, 6 pays associés hors UE et un réseau étendu de partenaires à travers le monde.

Candidater à un projet Erasmus + implique de fournir un ensemble de documents administratifs permettant aux organismes de s’identifier auprès de l’agence. Le format des documents peut être varié : il peut s’agir de fichiers au format PDF ou d’images de documents scannés. Le remplissage des documents peut quant à lui être fait numériquement ou de façon manuscrite. La multiplicité de ces cas n’impacte quasiment pas la lecture et l’extraction des informations par un humain. Cependant, elle rend difficile l’automatisation informatique du processus.

La direction des systèmes d’information de l’Agence Erasmus+ a souhaité étudier la piste de l’analyse de ces documents puis l’extraction d’informations grâce à l’IA. En cas de réussite, cette automatisation allégerait considérablement le temps du personnel. Et ce, en facilitant la comparaison des données extraites avec les informations légales puis en effectuant la majeure partie du travail fastidieux de recopie des informations traitées.

Une fois ce premier cas d’usage défini, l’agence a produit un démonstrateur qui a servi à vérifier la faisabilité technique d’une potentielle solution. Le démonstrateur étant prometteur, la question de la concrétisation de l’idée et de sa mise en production s’est alors posée. L’objectif de cette mise en production était de mettre à disposition les résultats obtenus au personnel de l’agence.

Depuis plusieurs mois, l’Agence menait un travail sur l’identification des tâches chronophages dans nos processus de gestion. L’identification et le traitement des pièces justificatives fournies par les candidats nous ont semblé le terrain d’exploration idéal pour la mise en œuvre de l’IA.

Christophe TREZEGUET, directeur des systèmes d'information d'Erasmus+

Initiation d’une collaboration

Erasmus + a choisi de faire appel au groupe Onepoint en raison de son expertise dans le domaine du traitement automatique de données par IA. Nos compétences et notre capacité d’adaptation ont permis au client de s’assurer que nous pourrions nous adapter à son besoin. C’est parce que nous avons fait le choix de comprendre l’ensemble des possibilités offertes par l’apprentissage machine que cette collaboration a pu voir le jour.

De la récupération de la donnée à son apprentissage : une mission en trois temps

Acquérir une donnée est une chose. Définir l’ensemble des traitements qui généreront de la valeur en est une autre.

Afin d’atteindre cet objectif, la mission a traversé trois grandes étapes. Au départ, Erasmus+ avait mis au point un démonstrateur théorique. Celui-ci était un prototype conçu pour montrer comment un outil à base d’intelligence artificielle pouvait extraire efficacement des données. L’objectif était double : démontrer la faisabilité de l’extraction par IA et initier une base d’outil opérationnel.

Le travail à accomplir a mobilisé fin 2024 un data scientist pendant vingt jours.

 

Première étape : étudier l’existant

La première phase de la mission a consisté en un audit pour étudier le premier démonstrateur produit par Erasmus +. Au-delà de l’analyse technique, il s’agissait de valider les méthodes mises en pratique pour le traitement des données.

Cette première phase a ainsi soulevé plusieurs questions : les modèles d’apprentissage machine utilisés sont-ils suffisamment robustes pour une mise en production ? Sont-ils explicables, c’est-à-dire peut-on comprendre comment ils prennent leurs décisions ? Si oui, dans quelle mesure ? Est-il possible d’améliorer les traitements effectués par ces modèles ? Le traitement sera-t-il assez rapide une fois que l’on passera à l’échelle de la production ?

 

Deuxième étape : consolider les choix relatifs à l’IA

L’exploration de ces questions a mis en avant le fait que le choix des modèles devait être consolidé. Le problème s’est retrouvé à être divisé en deux sous-problèmes : identifier le type de document pour ensuite déterminer les informations que l’on souhaite extraire de ce document.

Recherche d’un équilibre entre efficacité et explicabilité

Pour la première phase de classification, le démonstrateur utilisait un type de modèle appelé réseau de neurones. Ce type de modèle présente actuellement des résultats parmi les meilleurs du domaine. Néanmoins, il présente aussi l’inconvénient de ne pas être facilement explicable et d’être difficile à maintenir sur la durée. De plus, le temps de traitement d’une donnée peut être plus important en cas de mauvais dimensionnement du modèle.

Sachant cela, plutôt que de partir sur un unique modèle complexe, nous avons choisi de définir un ensemble de modèles spécialisés. Ces modèles sont plus légers, nécessitent moins de données pour être entraînés et sont donc plus faciles à mettre en place et à maintenir. L’avantage de cette structuration est que chaque modèle se concentre sur une unique tâche. Cette caractéristique facilite à la fois l’explicabilité du système et ses mises à jour éventuelles. Chaque modèle a été choisi de sorte à trouver le meilleur compromis répondant aux questions posées précédemment.

Une fois la première phase traitée, nous avons pu étudier la question de l’extraction pratique des informations. On appelle la tâche consistant à traduire une image en contenu textuel une tâche de reconnaissance optique de caractères.

Cette tâche s’avère être particulièrement complexe dans notre cas. En effet, un système d’analyse sera confronté à deux défis majeurs. Le premier : identifier les zones de l’image contenant effectivement du texte.

Utilisation d’un outil externe comme meilleur compromis

Le second : s’adapter au fait que l’écriture soit manuscrite ou numérique. Du fait de la durée limitée de la mission, nous avons décidé de déléguer cette tâche à un outil tiers fournissant ce service d’analyse.

L’avantage majeur de cette solution est de proposer un rapport qualité / prix bien supérieur à celui d’une solution uniquement produite en interne. Un autre avantage de l’analyse en tant que service est qu’elle délègue la maintenance des outils à l’entreprise fournissant le service.

 

Troisième étape : transiter du théorique au pratique

Une fois ces points résolus, il a été question d’initier un développement en vue d’une mise en production et d’une utilisation de l’application par le personnel d’Erasmus +. Le choix du mode de déploiement a été opéré de sorte à s’intégrer aussi naturellement que possible dans les infrastructures de l’agence.

Ce système de classification et d’extraction des informations, que nous appelons ValidIA, pour Validation par l’IA, devait être exploitable sous forme d’API, afin que nous puissions l’interroger depuis notre outil de gestion sans devoir intégrer une technologie hétérogène à l’existant.

Christophe TREZEGUET, directeur des systèmes d'information d'Erasmus+

L’IA comme boîte à outils

Au terme de la mission, nous avons déployé avec succès l’application. Le personnel de l’agence a pu ainsi y avoir accès.

Le développement et les premiers tests ont révélé des besoins qui n’étaient pas couverts par le démonstrateur initial.

Nous avons ajouté ces fonctionnalités additionnelles au fil de l’eau. Objectif : outiller les utilisateurs le plus efficacement possible dans le temps de la mission.

L’application scanne plusieurs milliers de documents chaque nuit. Cette passe quotidienne réduit ainsi le travail chronophage d’extraction et de vérification manuelle des données renseignées.

Un second avantage a consisté à optimiser l’expérience utilisateur. Et ce, en exécutant la majorité des calculs des modèles en dehors des horaires de travail.

Penser au-delà de l’existant

Fort de ce succès, l’agence Erasmus+ France explore déjà d’autres tâches administratives où l’IA pourrait intervenir. Au sein du groupe Onepoint, nous voyons dans ces technologies un potentiel immense, que nous sommes prêts à exploiter pour nos partenaires.