Mozilla нь яриа таних DeepSpeech 0.6 хөдөлгүүрийг танилцуулав

Оруулсан Mozilla-ийн бүтээсэн яриа таних хөдөлгүүрийг гаргасан DeepSpeech 0.6ижил нэртэй яриа таних архитектурыг хэрэгжүүлдэг , санал болгосон Байдугийн судлаачид. Энэхүү хэрэгжилтийг Python хэл дээр TensorFlow машин сургалтын платформ ашиглан бичсэн болно тараасан үнэгүй MPL 2.0 лицензийн дагуу. Linux, Android, macOS болон Windows дээр ажиллахыг дэмждэг. Гүйцэтгэл нь LePotato, Raspberry Pi 3, Raspberry Pi 4 хавтан дээр хөдөлгүүрийг ашиглахад хангалттай.

Мөн багцад багтсан болно санал болгож байна бэлтгэгдсэн загварууд, Жишээ нь командын мөрөөс дууны файлууд болон таних хэрэгслүүд. Яриа таних функцийг програмдаа нэгтгэхийн тулд Python, NodeJS, C++ болон .NET-д зориулсан ашиглахад бэлэн модулиудыг санал болгож байна (гуравдагч талын хөгжүүлэгчид модулиудыг тусад нь бэлтгэсэн байдаг. Rust и Go). Дууссан загварыг зөвхөн англи хэлээр, харин бусад хэл дээр нийлүүлдэг хавсаргасан зааварчилгаа Та системийг ашиглан өөрөө сургаж болно дуут өгөгдөл, Common Voice төслөөс цуглуулсан.

DeepSpeech нь уламжлалт системээс хамаагүй хялбар бөгөөд гаднах чимээ шуугиантай үед өндөр чанарын таних боломжийг олгодог. Энэ нь дуу чимээ, цуурай, ярианы онцлог зэрэг янз бүрийн гажигийг загварчлахын тулд салангид бүрэлдэхүүн хэсгүүдийг боловсруулах хэрэгцээг арилгадаг өндөр оновчтой мэдрэлийн сүлжээнд суурилсан машин сургалтын системийг ашиглан уламжлалт акустик загвар болон фонемийн тухай ойлголтыг алгасах болно.

Энэ аргын сул тал нь мэдрэлийн сүлжээг өндөр чанартай таних, сургахын тулд DeepSpeech хөдөлгүүр нь янз бүрийн дуу хоолой, байгалийн чимээ шуугиантай нөхцөлд бодит нөхцөлд тохируулсан олон төрлийн бус өгөгдөл шаарддаг явдал юм.
Mozilla-д үүсгэсэн төсөл ийм өгөгдлийг цуглуулдаг. Нийтлэг дуу хоолой, 780 цагийн турш баталгаажсан өгөгдлийн багцаар хангах Англи хэл, Герман хэлээр 325, Франц хэл дээр 173, Орос хэл дээр 27 цаг.

"Common Voice" төслийн эцсийн зорилго нь хүний ​​ярианы ердийн хэллэгүүдийн янз бүрийн дуудлагын бичлэгийн 10 мянган цагийг хуримтлуулах бөгөөд энэ нь алдааг хүлээн зөвшөөрөх түвшинд хүрэх боломжийг олгоно. Одоогийн байдлаар төсөлд оролцогчид нийт 4.3 мянган цаг зааж өгсний 3.5 мянга нь туршилтанд хамрагдсан байна. DeepSpeech-д зориулсан англи хэлний эцсийн загварыг сургахдаа LibriSpeech, Fisher, Switchboard төслүүдийн өгөгдлийг хамарсан Common Voice-оос гадна 3816 цагийн ярианы цаг, мөн 1700 орчим цагийн хуулбарласан радио нэвтрүүлгийн бичлэгийг ашигласан.

Татаж авахаар санал болгож буй англи хэлний бэлэн загварыг ашиглах үед DeepSpeech-ийн таних алдааны түвшин тестийн багцаар үнэлэгдэх үед 7.5% байна. LibriSpeech. Харьцуулбал, хүний ​​таних алдааны хувь гэж үнэлэгддэг 5.83% -д байна.

DeepSpeech нь акустик загвар ба декодер гэсэн хоёр дэд системээс бүрдэнэ. Акустик загвар нь оролтын дуунд тодорхой тэмдэгтүүд байх магадлалыг тооцоолохын тулд гүн гүнзгий машин сургалтын аргуудыг ашигладаг. Декодер нь тэмдэгтийн магадлалын өгөгдлийг текст дүрслэл болгон хөрвүүлэхийн тулд туяа хайлтын алгоритмыг ашигладаг.

Үндсэн инноваци DeepSpeech 0.6 (0.6 салбар нь өмнөх хувилбаруудтай тохирохгүй бөгөөд код болон загварын шинэчлэлтүүдийг шаарддаг):

  • Боловсруулсан аудио өгөгдлийн хэмжээнээс хамааралгүй, илүү өндөр хариу үйлдэл үзүүлэх шинэ урсгал декодлогчийг санал болгож байна. Үүний үр дүнд DeepSpeech-ийн шинэ хувилбар нь таних хоцролтыг 260 мс хүртэл бууруулж чадсан нь өмнөхөөсөө 73%-иар хурдан бөгөөд DeepSpeech-ийг яриа таних шийдэлд шууд ашиглах боломжийг олгосон.
  • API-д өөрчлөлт оруулж, функцийн нэрийг нэгтгэх ажлыг хийсэн. Синхрончлолын талаар нэмэлт мета өгөгдлийг олж авах функцүүд нэмэгдсэн бөгөөд энэ нь зөвхөн текстийн дүрслэлийг гаралт болгон авахаас гадна хувь хүний ​​тэмдэгт, өгүүлбэрийг аудио урсгал дахь байрлалд холбох боломжийг хянах боломжийг олгодог.
  • Номын санг ашиглахад зориулсан дэмжлэгийг сургалтын модулиудын хэрэгсэлд нэмсэн CuDNN давтагдах мэдрэлийн сүлжээ (RNN) -тэй ажиллах ажлыг оновчтой болгох, энэ нь загварын сургалтын гүйцэтгэлийг мэдэгдэхүйц (ойролцоогоор хоёр дахин) нэмэгдүүлэх боломжийг олгосон боловч өмнө нь бэлтгэсэн загваруудтай нийцтэй байдлыг зөрчсөн кодыг өөрчлөх шаардлагатай байв.
  • TensorFlow хувилбарын хамгийн бага шаардлагыг 1.13.1-ээс 1.14.0 болгон нэмэгдүүлсэн. DeepSpeech багцын хэмжээг 98 МБ-аас 3.7 МБ болгон багасгасан TensorFlow Lite-ийн хөнгөн хувилбарт дэмжлэг нэмсэн. Суулгасан болон хөдөлгөөнт төхөөрөмж дээр ашиглахын тулд загвартай хамт багцалсан файлын хэмжээг мөн 188 МБ-аас 47 МБ болгон бууруулсан (загварыг сургасны дараа хэмжигдэхүүнийг шахахад ашигладаг).
  • Хэлний загварыг өөр өгөгдлийн бүтцийн формат руу хөрвүүлсэн бөгөөд энэ нь файлуудыг ачаалах үед санах ойд буулгах боломжийг олгодог. Хуучин форматыг дэмжихээ больсон.
  • Хэлний загвар бүхий файлыг ачаалах горимыг өөрчилсөн бөгөөд энэ нь загварыг үүсгэсний дараа анхны хүсэлтийг боловсруулахад санах ойн зарцуулалтыг бууруулж, саатлыг бууруулсан. Ашиглалтын явцад DeepSpeech одоо 22 дахин бага санах ой зарцуулж, 500 дахин хурдан ажиллаж эхэлдэг.

    Mozilla нь яриа таних DeepSpeech 0.6 хөдөлгүүрийг танилцуулав

  • Хэлний загварт ховор үгсийг шүүсэн. Загварыг сургахад ашигласан текстээс олдсон хамгийн алдартай үгсийн нийт тоог 500 мянга болгон бууруулсан. Энэхүү цэвэрлэгээ нь хэлний загварын хэмжээг 1800МБ-аас 900МБ болгон багасгах боломжийг олгосон бөгөөд таних алдааны түвшинд бараг ямар ч нөлөө үзүүлэхгүй.
  • Төрөл бүрийн дэмжлэг нэмсэн техникч сургалтанд ашигласан аудио өгөгдлийн нэмэлт өөрчлөлтийг (өсгөх) бий болгох (жишээлбэл, багц сонголтуудад гажуудал, дуу чимээ нэмэх).
  • .NET платформ дээр суурилсан програмуудтай нэгтгэх холбоос бүхий номын санг нэмсэн.
  • Баримт бичгийг дахин боловсруулж, одоо тусдаа вэбсайт дээр цуглуулсан. deepspeech.readthedocs.io.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх