Facebook publisearret masine-oersetmodel dat 200 talen stipet

Facebook (ferbean yn 'e Russyske Federaasje) hat de ûntjouwings publisearre fan it NLLB-projekt (No Language Left Behind), rjochte op it meitsjen fan in universele masine-learmodel foar it direkt oersetten fan tekst fan de iene taal nei de oare, troch de tuskentiidske oersetting yn it Ingelsk om te gean. It foarstelde model beslacht mear dan 200 talen, ynklusyf seldsume talen fan Afrikaanske en Australyske folken. It úteinlike doel fan it projekt is om in middel foar kommunikaasje te bieden foar alle minsken, nettsjinsteande de taal dy't se prate.

It model wurdt lisinsje jûn ûnder in Creative Commons BY-NC 4.0-lisinsje, dy't kopiearjen, werferdieling, maatwurk en derivative wurken tastiet, op betingst dat jo taskriuwing jouwe, de lisinsje ûnderhâlde en allinich brûke foar net-kommersjele doelen. Tools foar wurkjen mei modellen wurde levere ûnder de MIT-lisinsje. Om ûntwikkeling te stimulearjen mei it NLLB-model, waard besletten om $ 200 tûzen te jaan foar subsydzjes oan ûndersikers.

Om de skepping fan projekten te ferienfâldigjen mei it foarstelde model, is de koade fan tapassingen brûkt foar testen en beoardieljen fan de kwaliteit fan modellen (FLORES-200, NLLB-MD, Toxicity-200), koade foar trainingsmodellen en encoders basearre op de LASER3-bibleteek ( Language-Agnostic SEntence) binne ek iepen boarne. Fertsjintwurdiging). It definitive model wurdt oanbean yn twa ferzjes - folslein en ynkoarte. De ferkoarte ferzje fereasket minder boarnen en is geskikt foar testen en gebrûk yn ûndersyksprojekten.

Oars as oare oersetsystemen basearre op masine-learsystemen, is de oplossing fan Facebook opmerklik yn dat it ien algemien model biedt foar alle 200 talen, dat alle talen beslacht en net it gebrûk fan aparte modellen foar elke taal fereasket. De oersetting wurdt direkt útfierd fan 'e boarnetaal nei de doeltaal, sûnder tuskenlizzende oersetting yn it Ingelsk. Om universele oersetsystemen te meitsjen wurdt boppedat in LID-model (Language IDentification) foarsteld, dat it mooglik makket om de brûkte taal te bepalen. Dy. it systeem kin automatysk werkenne yn hokker taal de ynformaasje wurdt levere en oersette yn de taal fan de brûker.

De oersetting wurdt yn elke rjochting stipe, tusken ien fan 'e 200 stipe talen. Om de kwaliteit fan oersetting tusken alle talen te befêstigjen, waard de FLORES-200-referinsjetestset taret, dy't oantoande dat it NLLB-200-model yn termen fan oersettingskwaliteit gemiddeld 44% superieur is oan earder foarstelde masine-learen basearre ûndersykssystemen by it brûken fan BLEU-metriken dy't masine-oersetting fergelykje mei standert minsklike oersetting. Foar seldsume Afrikaanske talen en Yndiaanske dialekten berikt de kwaliteitssuperioriteit 70%. It is mooglik om de kwaliteit fan 'e oersetting visueel te evaluearjen op in spesjaal taret demo-side.

Boarne: opennet.ru

Add a comment