Rhyddhau system cyfieithu peirianyddol OpenNMT-tf 2.30

Mae rhyddhau'r system cyfieithu peirianyddol OpenNMT-tf 2.30.0 (Open Neural Machine Translation), gan ddefnyddio dulliau dysgu peirianyddol, wedi'i gyhoeddi. Mae cod y modiwlau a ddatblygwyd gan y prosiect OpenNMT-tf wedi'i ysgrifennu yn Python, yn defnyddio llyfrgell TensorFlow ac yn cael ei ddosbarthu o dan drwydded MIT.

Ar yr un pryd, mae fersiwn o OpenNMT yn cael ei datblygu yn seiliedig ar lyfrgell PyTorch, sy'n wahanol yn lefel y galluoedd a gefnogir. Yn ogystal, mae OpenNMT sy'n seiliedig ar PyTorch yn cael ei ystyried yn haws i'w ddefnyddio ac yn amlfodd, tra bod y fersiwn sy'n seiliedig ar TensorFlow yn cael ei chyffwrdd fel un modiwlaidd, sefydlog, ac yn gallu trosoli galluoedd GPU i gyflymu hyfforddiant rhwydwaith niwral. Er mwyn symleiddio dosbarthiad y cynnyrch, mae'r prosiect hefyd yn datblygu fersiwn hunangynhaliol o'r cyfieithydd yn C++ - CTranslate2, sy'n defnyddio modelau sydd wedi'u hyfforddi ymlaen llaw heb gyfeirio at ddibyniaethau ychwanegol.

Paratoir modelau ar gyfer ieithoedd Saesneg, Almaeneg a Chatalaneg; ar gyfer ieithoedd eraill, gallwch greu model yn annibynnol yn seiliedig ar set ddata o brosiect OPUS (ar gyfer hyfforddiant, trosglwyddir dwy ffeil i'r system - un gyda brawddegau yn yr iaith ffynhonnell, a'r ail gyda chyfieithiad o ansawdd uchel o'r brawddegau hyn i'r iaith darged).

Mae'r prosiect yn cael ei ddatblygu gyda chyfranogiad SYSTRAN, cwmni sy'n arbenigo mewn creu offer cyfieithu peirianyddol, a grΕ΅p o ymchwilwyr Harvard sy'n datblygu modelau iaith ddynol ar gyfer systemau dysgu peirianyddol. Mae'r rhyngwyneb defnyddiwr mor syml Γ’ phosibl a dim ond angen nodi ffeil mewnbwn gyda thestun a ffeil i arbed canlyniad y cyfieithiad. Mae'r system estyn yn ei gwneud hi'n bosibl gweithredu swyddogaethau ychwanegol yn seiliedig ar OpenNMT, er enghraifft, awto-grynhoi, dosbarthu testun a chynhyrchu is-deitlau.

Yn y fersiwn newydd:

  • Cefnogaeth ychwanegol i lyfrgell TensorFlow 2.11, ond nid yw optimizers Keras newydd wedi'u cefnogi eto (mae angen modd tf.keras.optimizers.legacy).
  • Cefnogaeth ychwanegol ar gyfer cangen newydd o'r injan CTranslate2 3.x, a gynlluniwyd ar gyfer gweithredu modelau yn effeithlon gyda phensaernΓ―aeth y Transformer.
  • Ychwanegwyd paramedr hyfforddi model pad_to_bucket_boundary i alluogi padin cynyddrannol sy'n alinio maint y bloc i luosrifau o length_bucket_width.
  • Cefnogaeth integredig i fetrigau chrf a chrf++ o brosiect SacreBLEU, sy'n cymharu cyfieithu peirianyddol Γ’ chyfieithiad dynol cyfeiriol.
  • Priodoledd model ctranslate2_spec wedi'i dynnu, nad yw'n cael ei ddefnyddio bellach yn CTranslate2.

Ffynhonnell: opennet.ru

Ychwanegu sylw