Release van OpenNMT-tf 2.30 machinevertaalsysteem

Het machinevertaalsysteem OpenNMT-tf 2.30.0 (Open Neural Machine Translation), dat gebruikmaakt van machine learning-methoden, is uitgebracht. De code van de modules die door het OpenNMT-tf-project zijn ontwikkeld, is geschreven in Python, maakt gebruik van de TensorFlow-bibliotheek en wordt gedistribueerd onder de MIT-licentie.

Tegelijkertijd wordt een versie van OpenNMT op basis van de PyTorch-bibliotheek ontwikkeld, die verschilt in het niveau van ondersteunde functionaliteit. Bovendien wordt OpenNMT op basis van PyTorch gepresenteerd als gebruiksvriendelijker en multimodaal, terwijl de versie op basis van TensorFlow wordt omschreven als modulair, stabiel en geschikt voor het gebruik van GPU-functionaliteit om het trainingsproces van neurale netwerken te versnellen. Om de distributie van het product te vereenvoudigen, ontwikkelt het project ook een zelfstandige versie van de vertaler in C++: CTranslate2. Deze versie gebruikt vooraf getrainde modellen zonder gebonden te zijn aan extra afhankelijkheden.

Er zijn modellen voorbereid voor Engels, Duits en Catalaans. Voor andere talen kunt u zelfstandig een model maken op basis van een dataset uit het OPUS-project (ter training worden er twee bestanden naar het systeem overgezet: één met zinnen in de brontaal en het tweede met een hoogwaardige vertaling van deze zinnen in de doeltaal).

Het project wordt ontwikkeld met medewerking van SYSTRAN, een bedrijf gespecialiseerd in de ontwikkeling van tools voor machinevertaling, en een groep onderzoekers van Harvard die menselijke taalmodellen voor machine learning-systemen ontwikkelen. De gebruikersinterface is zo eenvoudig mogelijk en vereist alleen het invoerbestand met de tekst en het bestand voor het opslaan van het vertaalresultaat. Het uitbreidingssysteem maakt het mogelijk om aanvullende functionaliteit op basis van OpenNMT te implementeren, zoals autoreferentie, tekstclassificatie en het genereren van ondertitels.

In de nieuwe versie:

  • Ondersteuning voor de TensorFlow 2.11-bibliotheek is toegevoegd, maar nieuwe Keras-optimizers worden nog niet ondersteund (vereist het gebruik van de tf.keras.optimizers.legacy-modus).
  • Ondersteuning toegevoegd voor de nieuwe tak van de CTranslate2 3.x engine, ontworpen voor efficiënte uitvoering van modellen met de "transformer"-architectuur.
  • Er is een modeltrainingparameter pad_to_bucket_boundary toegevoegd om extra opvulling mogelijk te maken waarmee de bucketgrootte wordt uitgelijnd op veelvouden van length_bucket_width.
  • Geïntegreerde ondersteuning voor chrf- en chrf++-statistieken van het SacreBLEU-project, waarmee machinevertaling wordt vergeleken met menselijke referentievertaling.
  • Het modelkenmerk ctranslate2_spec is verwijderd. Dit kenmerk wordt niet meer gebruikt in CTranslate2.

Bron: opennet.ru

Koop betrouwbare hosting voor sites met DDoS-bescherming, VPS VDS-servers 🔥 Koop betrouwbare websitehosting met DDoS-bescherming, VPS- en VDS-servers | ProHoster