Mozillak DeepSpeech 0.6 ahotsa ezagutzeko motorra aurkeztu du

Bidalita Mozillak garatutako ahotsa ezagutzeko motorra askatzea DeepSpeech 0.6, izen bereko hizketa ezagutzeko arkitektura ezartzen duena, proposatu Baiduko ikertzaileen eskutik. Inplementazioa Python-en idatzita dago TensorFlow machine learning plataforma erabiliz eta arabera banatuta doako MPL 2.0 lizentziapean. Linux, Android, macOS eta Windows-en lan egiten du. Errendimendua nahikoa da motorra LePotato, Raspberry Pi 3 eta Raspberry Pi 4 plaketan erabiltzeko.

Multzoan ere sartuta eskaini trebatutako ereduak, adibide soinu-fitxategiak eta komando lerrotik ezagutzeko tresnak. Ahotsa ezagutzeko funtzioa zure programetan integratzeko, Python, NodeJS, C++ eta .NET erabiltzeko prest dauden moduluak eskaintzen dira (hirugarrenen garatzaileek moduluak bereizita prestatu dituzte). Herdoilaren ΠΈ Go). Amaitutako eredua ingeleserako bakarrik eskaintzen da, baina beste hizkuntzetarako erantsita argibideak zuk zeuk entrenatu dezakezu sistema erabiliz ahots datuak, Common Voice proiektuak bildua.

DeepSpeech sistema tradizionalak baino askoz sinpleagoa da eta, aldi berean, kalitate handiagoko errekonozimendua eskaintzen du kanpoko zarataren aurrean. Eredu akustiko tradizionalak eta fonemen kontzeptua saihesten ditu, sare neuronalean oinarritutako ikaskuntza automatikoko sistema oso optimizatua erabiliz, osagai bereiziak garatzeko beharra ezabatzen duena, hala nola zarata, oihartzuna eta hizketa ezaugarriak bezalako anomalia ezberdinak modelatzeko.

Ikuspegi honen alde txarra hauxe da: sare neuronal baten kalitate handiko aitorpena eta prestakuntza lortzeko, DeepSpeech motorrak datu heterogeneo ugari behar ditu, ahots ezberdinek baldintza errealetan agindutakoak eta zarata naturalaren aurrean.
Mozillan sortutako proiektu batek biltzen ditu halako datuak. ahots arrunta, 780 orduko datu-multzo egiaztatua eskainiz Ingelesa, 325 alemanez, 173 frantsesez eta 27 ordu errusieraz.

Common Voice proiektuaren azken helburua giza hizkeraren esaldi tipikoen hainbat ahoskatzeren 10 mila orduko grabazioak pilatzea da, eta horrek aitorpenean akats maila onargarria lortzea ahalbidetuko du. Oraingo moduan, proiektuko parte-hartzaileek dagoeneko 4.3 mila ordu agindu dituzte guztira, eta horietatik 3.5 mila probatu dira. DeepSpeech-erako ingelesezko azken eredua entrenatzerakoan, 3816 orduko hizkera erabili zen, LibriSpeech, Fisher eta Switchboard proiektuetako datuak estaltzen dituen Common Voicez gain, eta 1700 ordu inguru transkribatutako irratsaioen grabazioen barne.

Deskargatzeko eskaintzen den ingelesezko eredua erabiltzerakoan, DeepSpeech-en aitorpen-errore-tasa % 7.5ekoa da proba multzo batekin ebaluatzen denean. LibriSpeech. Konparazio baterako, gizakiaren aitorpenaren errore-tasa ebaluatzen da % 5.83an.

DeepSpeech-ek bi azpisistemak osatzen dute: eredu akustikoa eta deskodetzailea. Eredu akustikoak ikaskuntza automatikoko metodo sakonak erabiltzen ditu sarrerako soinuan karaktere batzuk agertzeko probabilitatea kalkulatzeko. Deskodetzaileak izpien bilaketa-algoritmo bat erabiltzen du karaktere-probabilitatearen datuak testu-irudikapen batean bihurtzeko.

Nagusia berrikuntzak DeepSpeech 0.6 (0.6 adarra ez da aurreko bertsioekin bateragarria eta kodea eta modeloen eguneraketak behar ditu):

  • Streaming deskodetzaile berri bat proposatzen da, erantzun handiagoa eskaintzen duena eta prozesatutako audio-datuen tamainatik independentea dena. Ondorioz, DeepSpeech-en bertsio berriak hautemateko latentzia 260 ms-ra murriztea lortu zuen, hau da, lehen baino % 73 azkarrago, eta DeepSpeech-ek hizketa ezagutzeko soluzioetan erabiltzeko aukera ematen du.
  • APIan aldaketak egin dira eta funtzioen izenak bateratzeko lana egin da. Funtzioak gehitu dira sinkronizazioari buruzko metadatu gehigarriak lortzeko, testu-irudikapen bat irteera gisa jasotzeaz gain, karaktere eta esaldi indibidualak audio-korrontearen posizio batera lotzen jarraitzeko.
  • Prestakuntza-moduluetarako tresna-kutxan liburutegia erabiltzeko laguntza gehitu da CuDNN sare neuronal errecurrenteekin (RNN) lana optimizatzeko, eta horrek posible egin zuen ereduen prestakuntzaren errendimenduaren igoera nabarmena (gutxi gorabehera bikoitza) lortzea, baina aurretik prestatutako ereduekin bateragarritasuna urratzen zuten kodean aldaketak behar izan zituen.
  • TensorFlow bertsioaren gutxieneko eskakizunak 1.13.1etik 1.14.0ra igo dira. TensorFlow Lite-ren edizio arinerako laguntza gehitu da, DeepSpeech paketearen tamaina 98 MBtik 3.7 MBra murrizten duena. Gailu txertatuetan eta mugikorretan erabiltzeko, ereduarekin bateratutako fitxategiaren tamaina 188 MB-tik 47 MB-ra ere murriztu da (kuantizazio metodoa konpresiorako erabiltzen da eredua trebatu ondoren).
  • Hizkuntza-eredua datu-egituraren formatu desberdin batera itzuli da, fitxategiak memorian mapatzea ahalbidetzen duena kargatzean. Formatu zaharraren laguntza eten egin da.
  • Fitxategi bat hizkuntza-eredu batekin kargatzeko modua aldatu da, eta horrek memoria-kontsumoa murriztu du eta eredua sortu osteko lehen eskaera prozesatzeko atzerapenak murriztu ditu. Funtzionatzen den bitartean, DeepSpeech-ek orain 22 aldiz memoria gutxiago kontsumitzen du eta 500 aldiz azkarrago hasten da.

    Mozillak DeepSpeech 0.6 ahotsa ezagutzeko motorra aurkeztu du

  • Hizkuntz ereduan iragazi ziren hitz arraroak. Eredua lantzeko erabilitako testuan aurkitutako hitz ezagunenetako 500 mila hitzen kopurua guztira murriztu zen. Garbiketak hizkuntza-ereduaren tamaina 1800MB-tik 900MBra murriztea ahalbidetu zuen, aitorpen-errore tasan ia eraginik gabe.
  • Hainbat laguntza gehitu da teknikariak entrenamenduan erabilitako audio-datuen aldakuntza gehigarriak (aumentatzea) sortzea (adibidez, aukera multzo bati distortsioa edo zarata gehitzea).
  • .NET plataforman oinarritutako aplikazioekin integratzeko lotura dituen liburutegi bat gehitu da.
  • Dokumentazioa berritu egin da eta orain beste webgune batean biltzen da. deepspeech.readthedocs.io.

Iturria: opennet.ru

Gehitu iruzkin berria