

Chantal Amrhein
29 gennaio 2024
Metavalutazione della traduzione automatica attraverso set di casi complessi per valutare l’accuratezza nella traduzione
Nota: Questo articolo è stato scritto nel 2024 e illustra il contesto precedente alla fusione tra Textshuttle e Supertext nonché al conseguente rilancio su supertext.com.
L’efficacia degli attuali parametri di traduzione automatica (MT) viene misurata rapportandola alle valutazioni umane. Tuttavia, questi risultati sono spesso ottenuti calcolando la media delle previsioni su grandi set di test, senza approfondire i punti di forza e di debolezza di tali parametri in relazione ai diversi tipi di errore. I set di casi complessi sono utilizzati per esaminare aspetti specifici del comportamento dei parametri, ma i dati disponibili sono molto limitati, oltre a concentrarsi solo su un numero esiguo di fenomeni o di combinazioni linguistiche.
Abbiamo introdotto ACES, un set di casi contrastivi comprendente 146 combinazioni linguistiche e volto ad accertare se i parametri siano in grado di identificare 68 errori di accuratezza nella traduzione . Questi fenomeni spaziano da alterazioni elementari a livello di parola/carattere a errori più complessi basati sulla conoscenza dell’eloquio e del mondo reale. Abbiamo condotto uno studio su larga scala testando ACES in 50 parametri presentati alle shared task del Convegno sulla traduzione automatica (WMT) del 2022 e 2023. Abbiamo testato le prestazioni dei parametri, ne abbiamo valutato le prestazioni incrementali nel corso di campagne consecutive e ne abbiamo misurato la sensibilità rispetto a una serie di fenomeni linguistici. Abbiamo inoltre esaminato le teorie secondo le quali i modelli linguistici di grandi dimensioni (LLM) sono efficaci come strumenti per valutare la MT, affrontando i limiti degli studi precedenti con una valutazione più olistica. Tale valutazione ha incluso una vasta gamma di fenomeni linguistici e combinazioni linguistiche, prendendo in esame lingue sia con scarsa sia con discreta disponibilità di risorse.
I nostri risultati dimostrano che famiglie di parametri diversi si scontrano con fenomeni diversi e che le tecniche basate sugli LLM non riescono a dare prova di prestazioni affidabili. Dalle nostre analisi emerge che la maggior parte dei parametri ignora la frase di partenza, tende a preferire la sovrapposizione a livello di superficie e finisce per incorporare proprietà di modelli di base che non sono sempre vantaggiose. Per favorire ulteriormente una valutazione dettagliata che vada al di là dei singoli punteggi, abbiamo sviluppato ACES al fine di includere le annotazioni degli errori per grado di gravità, denominate SPAN-ACES, e abbiamo utilizzato questo set di dati per valutare parametri di valutazione degli errori sulla base del grado di gravità, indicando come anche questi metodi necessitino di un notevole miglioramento.
Infine, abbiamo fornito una serie di raccomandazioni per la creazione di migliori parametri per la traduzione automatica, tra cui l’attenzione ai messaggi di errore piuttosto che ai punteggi, l’ensemble learning, il concepimento di strategie per concentrarsi esplicitamente sulla frase di partenza, l’attenzione al contenuto semantico piuttosto che alla sovrapposizione lessicale e la scelta del modello di base giusto per le rappresentazioni.