Мөн багцад багтсан болно
DeepSpeech нь уламжлалт системээс хамаагүй хялбар бөгөөд гаднах чимээ шуугиантай үед өндөр чанарын таних боломжийг олгодог. Энэ нь дуу чимээ, цуурай, ярианы онцлог зэрэг янз бүрийн гажигийг загварчлахын тулд салангид бүрэлдэхүүн хэсгүүдийг боловсруулах хэрэгцээг арилгадаг өндөр оновчтой мэдрэлийн сүлжээнд суурилсан машин сургалтын системийг ашиглан уламжлалт акустик загвар болон фонемийн тухай ойлголтыг алгасах болно.
Энэ аргын сул тал нь мэдрэлийн сүлжээг өндөр чанартай таних, сургахын тулд DeepSpeech хөдөлгүүр нь янз бүрийн дуу хоолой, байгалийн чимээ шуугиантай нөхцөлд бодит нөхцөлд тохируулсан олон төрлийн бус өгөгдөл шаарддаг явдал юм.
Mozilla-д үүсгэсэн төсөл ийм өгөгдлийг цуглуулдаг.
"Common Voice" төслийн эцсийн зорилго нь хүний ярианы ердийн хэллэгүүдийн янз бүрийн дуудлагын бичлэгийн 10 мянган цагийг хуримтлуулах бөгөөд энэ нь алдааг хүлээн зөвшөөрөх түвшинд хүрэх боломжийг олгоно. Одоогийн байдлаар төсөлд оролцогчид нийт 4.3 мянган цаг зааж өгсний 3.5 мянга нь туршилтанд хамрагдсан байна. DeepSpeech-д зориулсан англи хэлний эцсийн загварыг сургахдаа LibriSpeech, Fisher, Switchboard төслүүдийн өгөгдлийг хамарсан Common Voice-оос гадна 3816 цагийн ярианы цаг, мөн 1700 орчим цагийн хуулбарласан радио нэвтрүүлгийн бичлэгийг ашигласан.
Татаж авахаар санал болгож буй англи хэлний бэлэн загварыг ашиглах үед DeepSpeech-ийн таних алдааны түвшин тестийн багцаар үнэлэгдэх үед 7.5% байна.
DeepSpeech нь акустик загвар ба декодер гэсэн хоёр дэд системээс бүрдэнэ. Акустик загвар нь оролтын дуунд тодорхой тэмдэгтүүд байх магадлалыг тооцоолохын тулд гүн гүнзгий машин сургалтын аргуудыг ашигладаг. Декодер нь тэмдэгтийн магадлалын өгөгдлийг текст дүрслэл болгон хөрвүүлэхийн тулд туяа хайлтын алгоритмыг ашигладаг.
Үндсэн
- Боловсруулсан аудио өгөгдлийн хэмжээнээс хамааралгүй, илүү өндөр хариу үйлдэл үзүүлэх шинэ урсгал декодлогчийг санал болгож байна. Үүний үр дүнд DeepSpeech-ийн шинэ хувилбар нь таних хоцролтыг 260 мс хүртэл бууруулж чадсан нь өмнөхөөсөө 73%-иар хурдан бөгөөд DeepSpeech-ийг яриа таних шийдэлд шууд ашиглах боломжийг олгосон.
- API-д өөрчлөлт оруулж, функцийн нэрийг нэгтгэх ажлыг хийсэн. Синхрончлолын талаар нэмэлт мета өгөгдлийг олж авах функцүүд нэмэгдсэн бөгөөд энэ нь зөвхөн текстийн дүрслэлийг гаралт болгон авахаас гадна хувь хүний тэмдэгт, өгүүлбэрийг аудио урсгал дахь байрлалд холбох боломжийг хянах боломжийг олгодог.
- Номын санг ашиглахад зориулсан дэмжлэгийг сургалтын модулиудын хэрэгсэлд нэмсэн
CuDNN давтагдах мэдрэлийн сүлжээ (RNN) -тэй ажиллах ажлыг оновчтой болгох, энэ нь загварын сургалтын гүйцэтгэлийг мэдэгдэхүйц (ойролцоогоор хоёр дахин) нэмэгдүүлэх боломжийг олгосон боловч өмнө нь бэлтгэсэн загваруудтай нийцтэй байдлыг зөрчсөн кодыг өөрчлөх шаардлагатай байв. - TensorFlow хувилбарын хамгийн бага шаардлагыг 1.13.1-ээс 1.14.0 болгон нэмэгдүүлсэн. DeepSpeech багцын хэмжээг 98 МБ-аас 3.7 МБ болгон багасгасан TensorFlow Lite-ийн хөнгөн хувилбарт дэмжлэг нэмсэн. Суулгасан болон хөдөлгөөнт төхөөрөмж дээр ашиглахын тулд загвартай хамт багцалсан файлын хэмжээг мөн 188 МБ-аас 47 МБ болгон бууруулсан (загварыг сургасны дараа хэмжигдэхүүнийг шахахад ашигладаг).
- Хэлний загварыг өөр өгөгдлийн бүтцийн формат руу хөрвүүлсэн бөгөөд энэ нь файлуудыг ачаалах үед санах ойд буулгах боломжийг олгодог. Хуучин форматыг дэмжихээ больсон.
- Хэлний загвар бүхий файлыг ачаалах горимыг өөрчилсөн бөгөөд энэ нь загварыг үүсгэсний дараа анхны хүсэлтийг боловсруулахад санах ойн зарцуулалтыг бууруулж, саатлыг бууруулсан. Ашиглалтын явцад DeepSpeech одоо 22 дахин бага санах ой зарцуулж, 500 дахин хурдан ажиллаж эхэлдэг.
- Хэлний загварт ховор үгсийг шүүсэн. Загварыг сургахад ашигласан текстээс олдсон хамгийн алдартай үгсийн нийт тоог 500 мянга болгон бууруулсан. Энэхүү цэвэрлэгээ нь хэлний загварын хэмжээг 1800МБ-аас 900МБ болгон багасгах боломжийг олгосон бөгөөд таних алдааны түвшинд бараг ямар ч нөлөө үзүүлэхгүй.
- Төрөл бүрийн дэмжлэг нэмсэн
техникч сургалтанд ашигласан аудио өгөгдлийн нэмэлт өөрчлөлтийг (өсгөх) бий болгох (жишээлбэл, багц сонголтуудад гажуудал, дуу чимээ нэмэх). - .NET платформ дээр суурилсан програмуудтай нэгтгэх холбоос бүхий номын санг нэмсэн.
- Баримт бичгийг дахин боловсруулж, одоо тусдаа вэбсайт дээр цуглуулсан.
deepspeech.readthedocs.io .
Эх сурвалж: opennet.ru