Facebook publiceert een machinevertaalmodel dat 200 talen ondersteunt

Facebook (verboden in de Russische Federatie) heeft de ontwikkelingen gepubliceerd van het NLLB-project (No Language Left Behind), gericht op het creëren van een universeel machine learning-model voor het direct vertalen van tekst van de ene taal naar de andere, waarbij tussentijdse vertalingen naar het Engels worden omzeild. Het voorgestelde model omvat meer dan 200 talen, waaronder zeldzame talen van Afrikaanse en Australische volkeren. Het uiteindelijke doel van het project is om een ​​communicatiemiddel te bieden voor alle mensen, ongeacht de taal die ze spreken.

Het model is gelicentieerd onder een Creative Commons BY-NC 4.0-licentie, die kopiëren, herdistributie, aanpassing en afgeleide werken toestaat, op voorwaarde dat u naamsvermelding geeft, de licentie handhaaft en deze uitsluitend voor niet-commerciële doeleinden gebruikt. Tools voor het werken met modellen worden geleverd onder de MIT-licentie. Om de ontwikkeling met behulp van het NLLB-model te stimuleren, werd besloten 200 dollar toe te wijzen aan subsidies aan onderzoekers.

Om het maken van projecten te vereenvoudigen met behulp van het voorgestelde model, de code van applicaties die worden gebruikt voor het testen en beoordelen van de kwaliteit van modellen (FLORES-200, NLLB-MD, Toxicity-200), code voor trainingsmodellen en encoders gebaseerd op de LASER3-bibliotheek ( Taal-Agnostische SEntence) zijn bovendien open source. Representatie). Het uiteindelijke model wordt aangeboden in twee versies: volledig en ingekort. De verkorte versie vereist minder middelen en is geschikt voor testen en gebruik in onderzoeksprojecten.

In tegenstelling tot andere vertaalsystemen op basis van machine learning-systemen, is de oplossing van Facebook opmerkelijk omdat deze één algemeen model biedt voor alle 200 talen, die alle talen bestrijkt en niet het gebruik van afzonderlijke modellen voor elke taal vereist. De vertaling vindt rechtstreeks plaats van de brontaal naar de doeltaal, zonder tussentijdse vertaling naar het Engels. Om universele vertaalsystemen te creëren, wordt bovendien een LID-model (Language IDentification) voorgesteld, dat het mogelijk maakt de gebruikte taal te bepalen. Die. het systeem kan automatisch herkennen in welke taal de informatie wordt verstrekt en deze vertalen naar de taal van de gebruiker.

Vertaling wordt in elke richting ondersteund, tussen een van de 200 ondersteunde talen. Om de kwaliteit van de vertaling tussen welke taal dan ook te bevestigen, werd de FLORES-200 referentietestset opgesteld, waaruit bleek dat het NLLB-200-model in termen van vertaalkwaliteit gemiddeld 44% superieur is aan eerder voorgestelde op machine learning gebaseerde onderzoekssystemen bij gebruik van BLEU-statistieken waarbij automatische vertaling wordt vergeleken met standaard menselijke vertaling. Voor zeldzame Afrikaanse talen en Indiase dialecten bereikt de kwaliteitssuperioriteit 70%. Het is mogelijk om de kwaliteit van de vertaling visueel te evalueren op een speciaal voorbereide demosite.

Bron: opennet.ru

Voeg een reactie