Illustration of person relaxing on phone
Illustration of person relaxing on phone

Florian Schottmann

Research

29 janvier 2024

Recherche sur la généralisation de pointe en TLN: taxonomie et revue


Avertissement: cet article a été écrit au début de l’année 2024 et décrit la situation avant la fusion de Textshuttle avec Supertext et la refonte du site web supertext.com qui en a découlé.




La capacité à généraliser correctement est l’un des principaux objectifs du traitement du langage naturel (TLN). Pourtant, les implications d’une généralisation de qualité et la manière de l’évaluer correctement ne sont pas bien comprises, et il n’existe pas de normes d’évaluation pour la généralisation. Dans cet article, nous jetons les bases pour résoudre ces deux problèmes. Nous présentons une taxonomie pour caractériser et comprendre la recherche sur la généralisation en TLN. Notre taxonomie se fonde sur une vaste revue de la documentation existante sur la recherche en matière de généralisation et contient cinq axes le long desquels les études peuvent varier: leur motivation principale, le type de généralisation qu’elles analysent, le type de décalage des données qu’elles examinent, la source de ce décalage des données et l’endroit où se produit ce décalage dans le pipeline de modélisation. Nous nous appuyons sur notre taxonomie pour classer plus de 400 articles qui testent la généralisation, ce qui représente au total plus de 600 expérimentations individuelles. En tenant compte des résultats de cette revue, nous présentons une analyse approfondie qui cartographie l’état actuel de la recherche sur la généralisation en TLN, et formulons des recommandations quant aux domaines qui pourraient mériter une attention particulière à l’avenir. En plus de cet article, nous présentons une page web permettant d’explorer de manière dynamique les résultats de notre revue et que nous prévoyons de mettre à jour à mesure que de nouvelles études de généralisation en TLN seront publiées. Par ce travail, nous souhaitons contribuer à ce que les tests de généralisation de pointe deviennent la nouvelle norme en matière de TLN.


Lire l’intégralité de l’article de recherche sur arXiv

Autres articles
Supertext élargit son offre de traduction par l’IA à 28 langues
News

Supertext élargit son offre de traduction par l’IA à 28 langues

23 juillet 2025


Angela Lanza-Mariani