Útgáfa vélþýðingakerfisins OpenNMT-tf 2.30.0 (Open Neural Machine Translation), þar sem notaðar eru vélanámsaðferðir, hefur verið gefin út. Kóðinn á einingunum sem þróaðar eru af OpenNMT-tf verkefninu er skrifaður í Python, notar TensorFlow bókasafnið og er dreift undir MIT leyfinu.
Samhliða er verið að þróa útgáfu af OpenNMT sem byggir á PyTorch bókasafninu, sem er mismunandi hvað varðar stuðning getu. Að auki er PyTorch-undirstaða OpenNMT lýst sem auðveldari í notkun og fjölþætt, en TensorFlow-útgáfan er sýnd sem mát, stöðug og fær um að nýta GPU getu til að flýta fyrir tauganetþjálfun. Til að einfalda dreifingu vörunnar er verkefnið einnig að þróa sjálfbæra útgáfu af þýðandanum í C++ - CTranslate2, sem notar fyrirfram þjálfuð líkön án tilvísunar til viðbótarháðanna.
Líkön eru útbúin fyrir ensku, þýsku og katalónsku; fyrir önnur tungumál geturðu sjálfstætt búið til líkan byggt á gagnasetti frá OPUS verkefninu (til þjálfunar eru tvær skrár fluttar yfir í kerfið - önnur með setningum á frummálinu, og sú seinni með vandaðri þýðingu þessara setninga yfir á markmálið).
Verkefnið er þróað með þátttöku SYSTRAN, fyrirtækis sem sérhæfir sig í að búa til vélþýðingartæki, og hóps Harvard vísindamanna sem þróa mannamálslíkön fyrir vélanámskerfi. Notendaviðmótið er eins einfaldað og hægt er og þarf aðeins að tilgreina inntaksskrá með texta og skrá til að vista þýðingarniðurstöðuna. Viðbótarkerfið gerir það mögulegt að innleiða viðbótarvirkni byggða á OpenNMT, til dæmis sjálfvirka samantekt, textaflokkun og gerð texta.
Í nýju útgáfunni:
- Bætti við stuðningi við TensorFlow 2.11 bókasafn, en nýir Keras fínstillingar eru ekki studdir enn (þarfst tf.keras.optimizers.legacy ham).
- Bætti við stuðningi við nýja grein af CTranslate2 3.x vélinni, hönnuð fyrir skilvirka útfærslu á gerðum með Transformer arkitektúr.
- Bætti við líkanþjálfunarbreytu pad_to_bucket_boundary til að virkja stigvaxandi fyllingu sem stillir stærð blokkarinnar við margfeldi af length_bucket_width.
- Innbyggður stuðningur við chrf og chrf++ mæligildi frá SacreBLEU verkefninu, sem bera saman vélþýðingu við tilvísunarþýðingu manna.
- Fjarlægði ctranslate2_spec líkan eigind, sem er ekki lengur notuð í CTranslate2.
Heimild: opennet.ru
