Facebook het 'n model vir masjienvertaling gepubliseer wat 200 tale ondersteun

Facebook (verbied in die Russiese Federasie) het die ontwikkelings van die NLLB (No Language Left Behind)-projek gepubliseer, wat daarop gemik is om 'n universele masjienleermodel te skep vir direkte vertaling van teks van een taal na 'n ander, wat die intermediêre vertaling in Engels omseil. Die voorgestelde model dek meer as 200 tale, insluitend skaars Afrika- en Australiese tale. Die uiteindelike doel van die projek is om 'n kommunikasiemiddel vir alle mense te verskaf, ongeag die taal wat hulle praat.

Die model is beskikbaar onder 'n Creative Commons BY-NC 4.0-lisensie, wat kopiëring, verspreiding, insluiting in jou projekte en die skep van afgeleide werke toelaat, maar onderhewig aan erkenning, behoud van lisensie en gebruik slegs vir nie-kommersiële doeleindes. Die Modeling Tool is gelisensieer onder die MIT-lisensie. Om ontwikkeling te stimuleer deur die NLLB-model te gebruik, is besluit om 200 duisend dollar toe te ken om toelaes aan navorsers te verskaf.

Om die skepping van projekte met behulp van die voorgestelde model te vereenvoudig, die kode van toepassings wat gebruik word om die kwaliteit van modelle te toets en te evalueer (FLORES-200, NLLB-MD, Toxicity-200), die kode vir opleidingsmodelle en enkodeerders gebaseer op die LASER3-biblioteek (Taal-agnostiese sinvoorstelling). Die finale model word in twee weergawes aangebied – vol en verminder. Die verminderde weergawe vereis minder hulpbronne en is geskik vir toetsing en gebruik in navorsingsprojekte.

Anders as ander masjienleervertalingstelsels, is Facebook se oplossing opvallend omdat dit een algemene model vir al 200 tale bied, wat alle tale dek en nie aparte modelle vir elke taal vereis nie. Vertaling word direk vanaf die bron na die doeltaal uitgevoer, sonder tussentydse vertaling in Engels. Om universele vertaalstelsels te skep, word 'n addisionele LID-model (Language IDentification) voorgestel, wat die bepaling van die taalgebruik moontlik maak. Dié. die stelsel kan outomaties die taal waarin die inligting verskaf word herken en dit in die gebruiker se taal vertaal.

Vertaling word in enige rigting ondersteun, tussen enige van die ondersteunde 200 tale. Om die kwaliteit van vertaling tussen enige tale te bevestig, is die FLORES-200-verwysingstoetsstel voorberei, wat getoon het dat die NLLB-200-model, in terme van vertaalkwaliteit, gemiddeld 44% beter is as voorheen voorgestelde navorsingstelsels gebaseer op masjienleer wanneer BLEU-metrieke gebruik word wat masjienvertaling met standaard menslike vertaling vergelyk. Vir skaars Afrikatale en Indiese dialekte bereik die superioriteit in kwaliteit 70%. Dit is modieus om die kwaliteit van die vertaling visueel te assesseer op 'n spesiaal voorbereide demo-werf.

Bron: opennet.ru

Voeg 'n opmerking