Illustration of person relaxing on phone
Illustration of person relaxing on phone

Chantal Amrhein

Research

29 janvier 2024

Méta-évaluation de la traduction automatique à l’aide d’ensembles de défis d’exactitude de traduction


Avertissement: cet article a été écrit en 2024 et décrit la situation avant la fusion de Textshuttle avec Supertext et la refonte du site web supertext.com qui en a découlé.




Les métriques de traduction automatique (TA) récentes calibrent leur efficacité en corrélation avec les évaluations réalisées par des linguistes. Cependant, ces résultats sont souvent obtenus en faisant une moyenne des prévisions sur de vastes ensembles de tests sans aucune indication des forces et des faiblesses de ces métriques concernant différents types d’erreurs. Les ensembles de défis sont utilisés pour explorer des dimensions spécifiques du comportement des métriques, mais de tels ensembles de données sont peu nombreux et se concentrent soit sur un nombre limité de phénomènes, soit sur un nombre limité de paires de langues.


Nous avons mis au point ACES, un ensemble de défis contrastif couvrant 146 paires de langues qui a pour objectif de déterminer si les métriques peuvent identifier 68 erreurs de traduction (concernant l’exactitude). Ces phénomènes vont de simples modifications au niveau du mot/caractère à des erreurs plus complexes basées sur le discours et la connaissance du monde réel. Nous menons une étude à grande échelle en évaluant ACES sur 50 métriques employées dans les tâches de métriques partagées réalisées dans le cadre des ateliers sur la traduction automatique (WMT) de 2022 et 2023. Nous évaluons les performances des métriques, estimons leur performance incrémentielle au fil des campagnes successives et mesurons leur sensibilité quant à une série de phénomènes linguistiques. Nous examinons également l’idée selon laquelle les LLM sont efficaces en tant qu’outils d’évaluation de la TA. Pour ce faire, nous remédions aux limites des études antérieures en fournissant une évaluation plus holistique qui couvre un éventail de phénomènes linguistiques et de paires de langues et inclut des langues à faible et à moyen niveau de ressources.


Nos résultats montrent que différentes familles de métriques rencontrent des difficultés avec différents phénomènes et que les méthodes basées sur les LLM ne permettent pas de démontrer des performances fiables. Nos analyses indiquent que la plupart des métriques ignorent la phrase source, ont tendance à privilégier les superpositions superficielles et finissent par intégrer des propriétés issues de modèles de base qui ne sont pas toujours bénéfiques. Pour encourager encore davantage l’évaluation détaillée allant au-delà des scores uniques, nous étendons ACES pour inclure des annotations de portée d’erreur, que nous appelons SPAN-ACES, et nous utilisons cet ensemble de données pour évaluer des métriques d’erreur basées sur la portée, montrant que ces métriques doivent également être considérablement améliorées.


Enfin, nous proposons un ensemble de recommandations pour l’élaboration de meilleures métriques de TA, notamment en se concentrant sur les tickets d’erreur plutôt que sur les scores, en misant sur l’apprentissage ensembliste, en concevant des stratégies pour se concentrer explicitement sur la phrase source, en se focalisant sur le contenu sémantique plutôt que sur la superposition lexicale et en choisissant le bon modèle de base pour les représentations.


Lire l’intégralité de l’article de recherche sur arXiv

Autres articles
Supertext élargit son offre de traduction par l’IA à 28 langues
News

Supertext élargit son offre de traduction par l’IA à 28 langues

23 juillet 2025


Angela Lanza-Mariani