Illustration of person relaxing on phone
Illustration of person relaxing on phone

Chantal Amrhein

Research

29. Januar 2024

Meta-Analyse von maschineller Übersetzung durch Genauigkeits-Challenge-Sets


Anmerkung: Dieser Artikel wurde im Jahr 2024 verfasst und beschreibt die Situation vor der Fusion zwischen Textshuttle und Supertext und dem folgenden Relaunch auf supertext.com.




Die jüngsten Metriken für maschinelle Übersetzung (Machine Translation, MT) werden so trainiert, dass sie eine möglichst hohe Korrelation mit menschlichen Bewertungen aufweisen. Diese Ergebnisse werden jedoch oft durch Mittelung von Vorhersagen über grosse Testdatenmengen hinweg erlangt, ohne dass dabei Einblicke in die Stärken und Schwächen dieser Metriken für verschiedene Fehlertypen gewonnen werden. Challenge-Sets werden verwendet, um spezifische Aspekte im Verhalten der Metriken zu untersuchen. Es gibt jedoch sehr wenige solche Datensätze und sie konzentrieren sich entweder auf eine begrenzte Anzahl von Phänomenen oder eine begrenzte Anzahl von Sprachpaaren.


Wir stellen daher ACES vor, ein kontrastives Challenge-Set, das 146 Sprachpaare umfasst und dazu dient, herauszufinden, ob Metriken 68 Fehler bezüglich der Genauigkeit in Übersetzungen erkennen können. Die Fehler reichen von einfachen Abweichungen auf der Wort- und Zeichenebene bis hin zu komplexeren Fehlern bezüglich Sprach- und Weltwissen. Wir führen eine gross angelegte Studie durch, bei der wir ACES an 50 Metriken, die für die Shared-Taks zum Thema Metriken der WMT 2022 und 2023 eingereicht wurden, vergleichen. Wir messen die Leistung der Metriken, bewerten ihre inkrementelle Leistung über aufeinanderfolgende Shared-Task-Iterationen und messen ihre Empfindlichkeit gegenüber einer Reihe von linguistischen Phänomenen. Wir untersuchen auch die Behauptung, dass grosse Sprachmodelle (LLMs) gut zur Beurteilung von MT eingesetzt werden können, indem wir die Einschränkungen früherer Studien durch eine umfassendere Analyse ausgleichen, die eine Reihe von linguistischen Phänomenen und Sprachpaaren abdeckt und sowohl Sprachen mit kleinen als auch mit mittelgrossen Korpora einschliesst.


Unsere Auswertungen zeigen, dass verschiedene Metriktypen mit unterschiedlichen Phänomenen zu kämpfen haben und dass LLM-basierte Methoden keine zuverlässigen Ergebnisse erzielen. Unsere Analysen zeigen, dass die meisten Metriken den Ausgangssatz ignorieren, dazu neigen, oberflächliche Übereinstimmungen zu bevorzugen und letztendlich Eigenschaften von Basismodellen einbeziehen, die nicht immer hilfreich sind. Um die detaillierte Analyse, die über Einzelbewertungen hinausgeht, zu fördern, erweitern wir ACES um Annotationen für die Fehlerspannweite, die wir SPAN-ACES nennen, und nutzen diesen Datensatz, um spannenbasierte Fehlermetriken zu bewerten. Dabei zeigt sich, dass auch diese Metriken erheblich verbessert werden müssen.


Schliesslich geben wir eine Reihe von Empfehlungen für die Entwicklung besserer MT-Metriken, darunter die Konzentration auf Fehlerkategorisierungen anstelle von numerischen Bewertungen, die Kombination mehrerer Modelle, die Entwicklung von Strategien mit explizitem Fokus auf den Ausgangstext, die Konzentration auf den semantischen Inhalt anstelle von reinen lexikalischen Überschneidungen und die Wahl des richtigen Basismodells für die Repräsentationen.


Lesen Sie das vollständige Forschungspapier auf arXiv

Weitere Beiträge
Alles drin. Nur keine Leser:innen.
Insights

Alles drin. Nur keine Leser:innen.

15. Oktober 2025


Fabian Dieziger