Illustration of person relaxing on phone
Illustration of person relaxing on phone

Florian Schottmann

Research

28 novembre 2023

Uno standard per valutare i parametri della traduzione automatica per dialetti senza ortografia convenzionale


Nota: Questo articolo è stato scritto nel 2023 e illustra il contesto precedente alla fusione tra Textshuttle e Supertext nonché al conseguente rilancio su supertext.com.




Per poter fare progressi nel campo dell’elaborazione del linguaggio naturale, è importante essere consapevoli dei limiti dei parametri di valutazione utilizzati. In questo lavoro viene valutata la validità dei parametri utilizzati per dialetti non standardizzati, ovvero varietà linguistiche che non dispongono di un’ortografia standard. Per studiare questo aspetto, abbiamo assemblato un set di dati a partire da traduzioni umane e valutazioni umane di traduzioni automatiche dall’inglese verso due dialetti svizzero-tedeschi, per poi creare un set di casi linguistici complessi per la variazione dialettale e testare le prestazioni dei parametri esistenti. I nostri risultati evidenziano che i parametri esistenti non possono valutare in modo affidabile i testi generati in tedesco svizzero, soprattutto a livello di segmento. Abbiamo proposto adattamenti iniziali del modello che potenziano la validità dei parametri con i dialetti non standardizzati, anche se c’è ancora molto margine di miglioramento. Il set di dati, il codice e i modelli sono disponibili su GitHub.


L’articolo completo è disponibile su arXiv

Altri articoli
Un confronto tra le performance di traduzione di DeepL e Supertext
Research

Un confronto tra le performance di traduzione di DeepL e Supertext

5 febbraio 2025


Alex Flückiger