Classification hiérarchique : évaluer et comparer efficacement ?

La classification de documents, c’est-à-dire l’assignation automatique d’une catégorie à un texte, est un problème classique en Traitement du Langage (TAL). Par exemple, un système d’analyse d’articles de presse les classera automatiquement dans des rubriques comme « sport », « économie » ou « culture ».

Le problème se complexifie lorsque ces catégories forment une hiérarchie, c’est-à-dire que certaines classes sont des sous-ensembles d’autres. Un article de la catégorie «science» peut aussi être sous-catégorisé en «biologie», «physique» ou encore «chimie». L’enjeu est alors d’entraîner un algorithme capable d’assigner simultanément plusieurs niveaux de catégories, de la plus générale à la plus précise.

Ce problème, connu sous le nom de Hierarchical Text Classification (HTC), est au cœur de l’article Revisiting Hierarchical Text Classification : Inference and Metrics [https://arxiv.org/abs/2410.01305] présenté à la conférence Conference on Computational Natural Language Learning (CoNLL ). En particulier, nous nous intéressons à la manière d’évaluer les différents modèles existants. Nous soulignons l’importance de concevoir des mesures de performance spécifiquement adaptées au contexte hiérarchique. En ce sens, nous plaidons pour l’adoption de métriques dites « hiérarchiques » qui prennent en compte la structure des données. En outre, nous montrons l’importance de mettre en cohérence la manière de réaliser des prédictions et la métrique choisie.

Dans cette optique d’évaluation plus fine des modèles, nous proposons un nouveau jeu de données composé d’articles de Wikipedia (catégorisés par des contributeurs humains) plus complexe que ceux utilisés habituellement dans la littérature scientifique. Nous démontrons alors que les performances de certains modèles, parfois très sophistiqués et considérés comme représentant « l’état de l’art», sont surpassées par des approches bien plus simples. Nous introduisons par ailleurs une nouvelle méthode, plus simple, mais compétitive avec les approches existantes sur certains jeux de données évalués.

 

Pour en savoir plus, vous pouvez consulter l’article complet: Revisiting Hierarchical Text Classification: Inference and Metrics

Auteur