Illustration of person relaxing on phone
Illustration of person relaxing on phone

Florian Schottmann

Research

3 ottobre 2024

Trasformare LLM puramente in inglese in modelli poliglotti: quanto plurilinguismo è necessario?


Nota: Questo articolo è stato scritto nel 2024 e illustra il contesto precedente alla fusione tra Textshuttle e Supertext nonché al conseguente rilancio su supertext.com.




La maggior parte degli attuali modelli linguistici di grandi dimensioni (LLM) sono focalizzati sull’inglese, essendo stati pre-addestrati prevalentemente su dati testuali in lingua inglese. Tuttavia, per soddisfare le aspettative degli utenti, i modelli devono essere in grado di generare un output adeguato in più lingue una volta implementati in applicazioni a valle, cosa che richiede forti capacità di passare da una lingua all’altra. In questo lavoro abbiamo esaminato la quantità minima di plurilinguismo necessaria durante il fine tuning per indurre la generalizzazione tra lingue diverse in LLM puramente in inglese. Attraverso prove condotte su quattro LLM, abbiamo constatato come il ri-addestramento multilingue con solo due o tre lingue sia al contempo necessario e sufficiente per indurre una generalizzazione tra le lingue efficace, tuttavia con un fattore limitante costituito dal grado di visibilità della lingua di arrivo in fase di pre-addrestramento. Le valutazioni di cinque diverse operazioni dimostrano inoltre come il ri-addestramento multilingue sia più vantaggioso per le attività generative che presuppongono una corrispondenza tra la lingua di input e quella di output, come ad esempio negli ambienti di chat, e invece meno importante per le operazioni di classificazione altamente strutturate. Il nostro codice e i nostri dati sono disponibili su GitHub


L’articolo completo è disponibile su arXiv.

Altri articoli
Un confronto tra le performance di traduzione di DeepL e Supertext
Research

Un confronto tra le performance di traduzione di DeepL e Supertext

5 febbraio 2025


Alex Flückiger