Facebook julkaisee konekäännösmallin, joka tukee 200 kieltä

Facebook (Venäjän federaatiossa kielletty) on julkaissut NLLB (No Language Left Behind) -projektin kehitystyöt, jonka tavoitteena on luoda universaali koneoppimismalli tekstin kääntämiseen suoraan kielestä toiseen ohittaen välikäännöksen englannin kielelle. Ehdotettu malli kattaa yli 200 kieltä, mukaan lukien Afrikan ja Australian kansojen harvinaiset kielet. Hankkeen perimmäisenä tavoitteena on tarjota keino kommunikointiin kaikille ihmisille heidän puhumansa kielestä riippumatta.

Malli on lisensoitu Creative Commons BY-NC 4.0 -lisenssillä, joka sallii kopioinnin, uudelleenjakelun, yhteistyön ja johdannaisteoksia edellyttäen, että annat nimen, ylläpidät lisenssiä ja käytät sitä vain ei-kaupallisiin tarkoituksiin. Mallien kanssa työskentelyyn tarkoitettuja työkaluja tarjotaan MIT-lisenssillä. Kehityksen edistämiseksi NLLB-mallin avulla päätettiin osoittaa 200 tuhatta dollaria tutkijoiden apurahojen myöntämiseen.

Projektien luomisen yksinkertaistamiseksi ehdotetun mallin avulla, mallien laadun testaamiseen ja arvioimiseen käytettyjen sovellusten koodit (FLORES-200, NLLB-MD, Toxicity-200), koodi koulutusmalleille ja LASER3-kirjastoon perustuville koodereille ( Language-Agnostic SEntence) ovat lisäksi avoimen lähdekoodin. Edustus). Lopullinen malli on saatavilla kahdessa versiossa - täysi ja lyhennetty. Lyhennetty versio vaatii vähemmän resursseja ja soveltuu testattavaksi ja käytettäväksi tutkimusprojekteissa.

Toisin kuin muut koneoppimisjärjestelmiin perustuvat käännösjärjestelmät, Facebookin ratkaisu on huomionarvoinen siinä, että se tarjoaa yhden yleisen mallin kaikille 200 kielelle, joka kattaa kaikki kielet eikä vaadi erillisten mallien käyttöä jokaiselle kielelle. Käännös tehdään suoraan lähdekielestä kohdekielelle ilman välikäännöstä englanniksi. Universaalien käännösjärjestelmien luomiseksi ehdotetaan lisäksi LID-mallia (Language IDentification), jonka avulla voidaan määrittää käytettävä kieli. Nuo. järjestelmä voi automaattisesti tunnistaa millä kielellä tiedot on annettu ja kääntää ne käyttäjän kielelle.

Käännös on tuettu mihin tahansa suuntaan, minkä tahansa 200 tuetun kielen välillä. Käännösten laadun varmistamiseksi kielten välillä valmistettiin FLORES-200-viitetestisarja, joka osoitti, että NLLB-200-malli on käännöslaadun suhteen keskimäärin 44 % parempi kuin aiemmin ehdotetut koneoppimiseen perustuvat tutkimusjärjestelmät käytettäessä. BLEU-mittarit, jotka vertaavat konekäännöstä tavalliseen ihmiskäännökseen. Harvinaisilla afrikkalaisilla kielillä ja intialaisilla murteilla laatu on 70%. Käännöksen laatua on mahdollista arvioida visuaalisesti erityisesti valmistetulla esittelysivustolla.

Lähde: opennet.ru

Lisää kommentti