

Florian Schottmann
3. Oktober 2024
LLMs – von monolingual zu multilingual: Wie viel Mehrsprachigkeit braucht es?
Anmerkung: Dieser Artikel wurde im Jahr 2024 verfasst und beschreibt die Situation vor der Fusion zwischen Textshuttle und Supertext und dem folgenden Relaunch auf supertext.com.
Die überwiegende Mehrheit der heutigen grossen Sprachmodelle (Large Language Models, LLMs) sind auf die englische Sprache ausgerichtet, da sie überwiegend mit englischen Texten trainiert wurden. Damit die Erwartungen der User:innen erfüllt werden können, müssen die Modelle jedoch in der Lage sein, nach der Integration in nachgelagerte Anwendungen in mehreren Sprachen angemessen zu reagieren. Dies erfordert ausgeprägte Fähigkeiten im Bereich des sprachübergreifenden Transfers. In diesem Artikel untersuchen wir, wie viel Mehrsprachigkeit während des Fine-Tunings als Minimum erforderlich ist, um bei auf Englisch ausgerichteten LLMs eine Generalisierung auf andere Sprachen zu erreichen. In Experimenten mit vier verschiedenen LLMs haben wir festgestellt, dass ein multilinguales Instruction-Tuning mit nur zwei bis drei Sprachen sowohl notwendig als auch ausreichend ist, um eine effektive Generalisierung über Sprachgrenzen hinweg zu erreichen. Der Grad, in dem die Zielsprache während des Pretrainings berücksichtigt wird, stellt dabei den begrenzenden Faktor dar. Bewertungen von fünf verschiedenen Aufgaben zeigen weiter, dass das multilinguale Instruction-Tuning am nützlichsten für generative Aufgaben ist, bei denen eine Übereinstimmung zwischen Eingabe- und Ausgabesprache vorausgesetzt wird, z. B. in Chat-Settings. Für stark strukturierte Klassifizierungsaufgaben scheint es weniger relevant zu sein. Unser Code und unsere Daten sind auf Github verfügbar