Meta-Open-Source-KI-Übersetzungstool im Frühstadium, das in 200 Sprachen funktioniert

Meta-Open-Source-KI-Übersetzungstool im Frühstadium, das in 200 Sprachen funktioniert

Der Social-Media-Konglomerat Meta hat ein einziges KI-Modell entwickelt, das in der Lage ist, in 200 verschiedene Sprachen zu übersetzen, darunter viele, die von aktuellen kommerziellen Tools nicht unterstützt werden. Das Unternehmen stellt das Projekt als Open Source zur Verfügung, in der Hoffnung, dass andere auf seiner Arbeit aufbauen werden.

Das KI-Modell ist Teil eines ehrgeizigen F&E-Projekts von Meta zur Schaffung eines sogenannten „universellen Sprachübersetzers“, den das Unternehmen als wichtig für das Wachstum auf seinen vielen Plattformen ansieht – von Facebook und Instagram bis hin zu entwickelnden Domänen wie VR und AR. Die maschinelle Übersetzung ermöglicht es Meta nicht nur, seine Benutzer besser zu verstehen (und so die Werbesysteme zu verbessern, die 97 Prozent seines Umsatzes generieren), sondern könnte auch die Grundlage einer Killer-App für zukünftige Projekte wie seine Augmented-Reality-Brille sein.

Experten für maschinelle Übersetzung erzählt Der Rand dass Metas jüngste Forschung ehrgeizig und gründlich war, stellte jedoch fest, dass die Qualität einiger Übersetzungen des Modells wahrscheinlich weit unter der von besser unterstützten Sprachen wie Italienisch oder Deutsch liegen würde.

„Der Hauptbeitrag hier sind Daten“, sagte Professor Alexander Fraser, Experte für Computerlinguistik an der LMU München in Deutschland Der Rand. „Bedeutsam sind 100 neue Sprachen [that can be translated by Meta’s model].“

Metas Errungenschaften beruhen paradoxerweise sowohl auf dem Umfang und Schwerpunkt seiner Forschung. Während die meisten maschinellen Übersetzungsmodelle nur eine Handvoll Sprachen verarbeiten, ist das Modell von Meta allumfassend: Es ist ein einziges System, das in mehr als 40.000 verschiedene Richtungen zwischen 200 verschiedenen Sprachen übersetzen kann. Aber Meta ist auch daran interessiert, „Low-Ressourcen-Sprachen“ in das Modell aufzunehmen – Sprachen mit weniger als 1 Million öffentlich zugänglichen übersetzten Satzpaaren. Dazu gehören viele afrikanische und indische Sprachen, die normalerweise nicht von kommerziellen maschinellen Übersetzungstools unterstützt werden.

Die Meta-KI-Forscherin Angela Fan, die an dem Projekt gearbeitet hat, sagte Der Rand dass das Team von der mangelnden Aufmerksamkeit inspiriert wurde, die solchen ressourcenarmen Sprachen in diesem Bereich geschenkt wird. „Übersetzen funktioniert nicht einmal für die Sprachen, die wir sprechen, deshalb haben wir dieses Projekt gestartet“, sagte Fan. „Wir haben diese Inklusionsmotivation wie: ‚Was wäre nötig, um eine Übersetzungstechnologie zu entwickeln, die für alle funktioniert?‘“

Fan sagt das Model, hier in einer Forschungsarbeit beschrieben, wird bereits getestet, um ein Projekt zu unterstützen, das Wikipedia-Redakteuren hilft, Artikel in andere Sprachen zu übersetzen. Die bei der Erstellung des Modells entwickelten Techniken werden in Kürze auch in die Übersetzungswerkzeuge von Meta integriert.

Wie beurteilen Sie eine Übersetzung?

Die Übersetzung ist in den besten Zeiten eine schwierige Aufgabe, und die maschinelle Übersetzung kann notorisch unzuverlässig sein. Bei großflächiger Anwendung auf Metas Plattformen kann selbst eine kleine Anzahl von Fehlern zu katastrophalen Ergebnissen führen – wie zum Beispiel, als Facebook einen Beitrag eines Palästinensers von „Guten Morgen“ in „ihm weh tun“ falsch übersetzte, was zu seiner Verhaftung durch Israelis führte Polizei.

Um die Qualität der Ausgabe des neuen Modells zu bewerten, hat Meta einen Testdatensatz erstellt, der aus 3001 Satzpaaren für jede vom Modell abgedeckte Sprache besteht, die jeweils von jemandem, der sowohl professioneller Übersetzer als auch Muttersprachler ist, aus dem Englischen in eine Zielsprache übersetzt wurden.

Die Forscher ließen diese Sätze durch ihr Modell laufen und verglichen die maschinelle Übersetzung mit den menschlichen Referenzsätzen unter Verwendung eines in der maschinellen Übersetzung üblichen Benchmarks namens BLEU (was für BichLeinsprachig EBewertung UNebenstudium).

BLEU ermöglicht es Forschern, numerische Punktzahlen zuzuweisen, die die Überlappung zwischen Satzpaaren messen, und Meta sagt, dass sein Modell eine Verbesserung von 44 Prozent der BLEU-Punktzahlen in allen unterstützten Sprachen bewirkt (im Vergleich zu früheren hochmodernen Arbeiten). Wie so oft in der KI-Forschung erfordert die Beurteilung des Fortschritts anhand von Benchmarks jedoch Kontext.

Obwohl BLEU-Scores den Forschern einen Vergleich ermöglichen relativ Fortschritte verschiedener maschineller Übersetzungsmodelle bieten sie nicht an absolut Maß für die Fähigkeit von Software, Übersetzungen in menschlicher Qualität zu erstellen.

Denken Sie daran: Der Datensatz von Meta besteht aus 3001 Sätzen, und jeder wurde nur von einer einzigen Person übersetzt. Dies bietet eine Grundlage für die Beurteilung der Übersetzungsqualität, aber die gesamte Ausdruckskraft einer ganzen Sprache kann nicht durch einen so kleinen Teil der tatsächlichen Sprache erfasst werden. Dieses Problem ist keineswegs auf Meta beschränkt – es betrifft alle maschinellen Übersetzungsarbeiten und ist besonders akut bei der Bewertung von Sprachen mit geringen Ressourcen – aber es zeigt das Ausmaß der Herausforderungen, denen sich dieses Gebiet gegenübersieht.

Christian Federmann, ein leitender Forschungsmanager, der bei Microsoft an maschineller Übersetzung arbeitet, sagte, das Projekt als Ganzes sei „lobenswert“ in seinem Bestreben, den Anwendungsbereich von maschineller Übersetzungssoftware auf weniger abgedeckte Sprachen auszudehnen, merkte jedoch an, dass BLEU-Punkte für sich allein punkten können bieten nur ein begrenztes Maß für die Ausgabequalität.

„Übersetzen ist ein kreativer, generativer Prozess, der zu vielen verschiedenen Übersetzungen führen kann, die alle gleich gut (oder schlecht) sind“, sagte Federmann Der Rand. „Es ist unmöglich, allgemeine Niveaus der ‚BLEU-Score-Güte‘ anzugeben, da sie vom verwendeten Test-Set, seiner Referenzqualität, aber auch von inhärenten Eigenschaften des untersuchten Sprachpaars abhängen.“

Fan sagte, dass die BLEU-Bewertungen auch durch eine menschliche Bewertung ergänzt worden seien und dass dieses Feedback sehr positiv sei und auch einige überraschende Reaktionen hervorrufe.

„Ein wirklich interessantes Phänomen ist, dass Menschen, die ressourcenarme Sprachen sprechen, oft eine niedrigere Messlatte für die Übersetzungsqualität haben, weil sie kein anderes Werkzeug haben“, sagte Fan, die selbst Sprecherin einer ressourcenarmen Sprache ist. Shanghaier. „Sie sind super großzügig, und deshalb müssen wir tatsächlich zurückgehen und sagen: ‚Hey, nein, Sie müssen sehr genau sein, und wenn Sie einen Fehler sehen, rufen Sie ihn auf.’“

Die Machtungleichgewichte der Unternehmens-KI

Die Arbeit an KI-Übersetzung wird oft als eindeutiges Gut dargestellt, aber die Erstellung dieser Software ist für Sprecher von Sprachen mit geringen Ressourcen mit besonderen Schwierigkeiten verbunden. Für einige Gemeinden gilt die Aufmerksamkeit von Big Tech einfach unerwünscht: sie wollen nicht, dass die Werkzeuge, die sie brauchen, um ihre Sprache zu bewahren, in den Händen von irgendjemandem außer ihren eigenen liegen. Für andere sind die Themen weniger existentiell, sondern mehr mit Qualitäts- und Einflussfragen verbunden.

Die Ingenieure von Meta untersuchten einige dieser Fragen, indem sie Interviews mit 44 Sprechern ressourcenarmer Sprachen führten. Diese Befragten erwähnten eine Reihe positiver und negativer Auswirkungen der Öffnung ihrer Sprachen für die maschinelle Übersetzung.

Positiv ist zum Beispiel, dass solche Tools Rednern den Zugriff auf mehr Medien und Informationen ermöglichen. Sie können verwendet werden, um reichhaltige Ressourcen wie englischsprachige Wikipedia und Bildungstexte zu übersetzen. Wenn Sprecher von Sprachen mit geringen Ressourcen jedoch gleichzeitig mehr Medien konsumieren, die von Sprechern besser unterstützter Sprachen erstellt wurden, könnte dies die Anreize verringern, solche Materialien in ihrer eigenen Sprache zu erstellen.

Das Ausbalancieren dieser Probleme ist eine Herausforderung, und die Probleme, die selbst bei diesem jüngsten Projekt aufgetreten sind, zeigen, warum. Die Forscher von Meta stellen zum Beispiel fest, dass von den 44 ressourcenarmen Sprechern, die sie befragten, um diese Fragen zu untersuchen, die Mehrheit dieser Befragten „Einwanderer waren, die in den USA und Europa leben, und etwa ein Drittel von ihnen identifiziert sich als Tech-Arbeiter“ – Das heißt, ihre Perspektiven unterscheiden sich wahrscheinlich von denen ihrer Heimatgemeinden und sind von Anfang an voreingenommen.

Professor Fraser von der LMU München sagte, dass die Forschung trotzdem „in einer Weise durchgeführt wurde, die immer mehr Muttersprachler einbezieht“ und dass solche Bemühungen „lobenswert“ seien.

„Insgesamt bin ich froh, dass Meta dies getan hat. Mehr davon von Unternehmen wie Google, Meta und Microsoft, die alle erhebliche Arbeit in der maschinellen Übersetzung mit geringen Ressourcen leisten, ist großartig für die Welt“, sagte Fraser. „Und natürlich stammen einige der Überlegungen, warum und wie dies zu tun ist, auch aus der Wissenschaft sowie aus der Ausbildung der meisten der aufgeführten Forscher.“

Fan sagte, Meta habe versucht, vielen dieser sozialen Herausforderungen zuvorzukommen, indem sie das Fachwissen, das sie für das Projekt konsultierten, erweiterten. „Ich denke, wenn KI entwickelt wird, ist es oft sehr technisch – wie ‚Okay, wo sind meine Informatik-Doktoranden? Lasst uns zusammenkommen und es bauen, nur weil wir es können.“ Aber eigentlich haben wir dafür mit Linguisten, Soziologen und Ethikern zusammengearbeitet“, sagte sie. „Und ich denke, diese Art von interdisziplinärem Ansatz konzentriert sich auf die Mensch Problem. Wer möchte, dass diese Technologie gebaut wird? Wie wollen sie gebaut werden? Wie werden sie es verwenden?“

Genauso wichtig, sagt Fan, sei die Entscheidung dazu Open-Source so viele Elemente des Projekts wie möglich – vom Modell bis zum Bewertungsdatensatz und Schulungscode –, die dazu beitragen sollten, das Machtungleichgewicht zu beseitigen, das einem Unternehmen innewohnt, das an einer solchen Initiative arbeitet. Meta bietet auch Stipendien an an Forschende, die zu solchen Übersetzungsprojekten beitragen wollen, aber keine eigenen Projekte finanzieren können.

„Ich denke, das ist wirklich, wirklich wichtig, denn es ist nicht so, dass ein Unternehmen in der Lage sein wird, das Problem der maschinellen Übersetzung ganzheitlich zu lösen“, sagte Fan. „Es geht um alle – weltweit – und deshalb sind wir wirklich daran interessiert, diese Art von Gemeinschaftsbemühungen zu unterstützen.“

Quellenlink