ሞዚላ DeepSpeech 0.6 የንግግር ማወቂያ ሞተርን ይፋ አደረገ

የቀረበው በ በሞዚላ የተገነባ የንግግር ማወቂያ ሞተር መለቀቅ ጥልቅ ንግግር 0.6በተመሳሳይ ስም የንግግር ማወቂያ ሥነ ሕንፃን ተግባራዊ የሚያደርግ ፣ የሚል ሀሳብ አቅርቧል በባይዱ ተመራማሪዎች። አተገባበሩ የ TensorFlow ማሽን መማሪያ መድረክን እና በመጠቀም በፓይዘን ተጽፏል የተሰራጨው በ በነጻ MPL 2.0 ፍቃድ ስር። ድጋፎች በሊኑክስ፣ አንድሮይድ፣ ማክሮስ እና ዊንዶውስ ላይ ይሰራሉ። አፈፃፀሙ ሞተሩን በLePotato፣ Raspberry Pi 3 እና Raspberry Pi 4 ቦርዶች ለመጠቀም በቂ ነው።

በስብስቡ ውስጥም ተካትቷል። አቅርቧል የሰለጠኑ ሞዴሎች ፣ ምሳሌዎች የድምጽ ፋይሎች እና የማወቂያ መሳሪያዎች ከትዕዛዝ መስመሩ. የንግግር ማወቂያ ተግባርን ወደ ፕሮግራሞችዎ ለማዋሃድ ለ Python ፣ NodeJS ፣ C++ እና .NET ለመጠቀም ዝግጁ የሆኑ ሞጁሎች ቀርበዋል (የሶስተኛ ወገን ገንቢዎች ለሞጁሎች ለየብቻ አዘጋጅተዋል ። ዝገት и Go). የተጠናቀቀው ሞዴል ለእንግሊዝኛ ብቻ ነው, ግን ለሌሎች ቋንቋዎች በ ተያይዟል መመሪያዎች ስርዓቱን እራስዎ በመጠቀም ማሰልጠን ይችላሉ የድምጽ ውሂብበጋራ ድምጽ ፕሮጀክት የተሰበሰበ።

DeepSpeech ከተለምዷዊ ስርዓቶች በጣም ቀላል እና በተመሳሳይ ጊዜ ከውጪ ድምጽ በሚኖርበት ጊዜ ከፍተኛ ጥራት ያለው እውቅና ይሰጣል. ባህላዊ የአኮስቲክ ሞዴሎችን እና የፎነሞችን ጽንሰ-ሀሳብ ያልፋል፣ ይልቁንም በከፍተኛ ደረጃ የተመቻቸ የነርቭ ኔትወርክን መሰረት ያደረገ የማሽን መማሪያ ዘዴን በመጠቀም እንደ ጫጫታ፣ ማሚቶ እና የንግግር ባህሪያት ያሉ የተለያዩ ያልተለመዱ ነገሮችን ለመቅረጽ የተለያዩ ክፍሎችን ማዘጋጀትን አስፈላጊነት ያስወግዳል።

የዚህ አቀራረብ ጉዳቱ ከፍተኛ ጥራት ያለው እውቅና ለማግኘት እና የነርቭ ኔትወርክን ለማሰልጠን, DeepSpeech Engine ከፍተኛ መጠን ያለው የተለያየ መረጃን ይፈልጋል, በእውነተኛ ሁኔታዎች ውስጥ በተለያየ ድምጽ እና በተፈጥሮ ጩኸት ውስጥ ይገለጻል.
በሞዚላ ውስጥ የተፈጠረ ፕሮጀክት እንደዚህ ያሉ መረጃዎችን ይሰበስባል. የጋራ ድምጽከ 780 ሰአታት ጋር የተረጋገጠ የውሂብ ስብስብ በማቅረብ ላይ የእንግሊዘኛ ቋንቋ, 325 በጀርመን, 173 በፈረንሳይኛ እና 27 ሰዓታት በሩሲያኛ.

የጋራ ድምፅ ፕሮጀክት የመጨረሻ ግብ 10 ሰአታት የሚፈጀውን ቅጂ ማከማቸት ሲሆን ይህም የሰዎች የንግግር ዘይቤ ተቀባይነት ያለው የስህተት ደረጃ ላይ ለመድረስ ያስችላል። አሁን ባለው ፎርም የፕሮጀክቱ ተሳታፊዎች በድምሩ 4.3ሺህ ሰአታት ያደረጉ ሲሆን ከዚህ ውስጥ 3.5ሺህ ተፈትነዋል። የመጨረሻውን የእንግሊዝኛ ቋንቋ ሞዴል ለ DeepSpeech ሲያሠለጥን 3816 ሰአታት ንግግር ጥቅም ላይ ውሎ ነበር፣ ከLibriSpeech፣ Fisher እና Switchboard ፕሮጀክቶች የተገኘ መረጃን ከሚሸፍነው የጋራ ቮይስ በተጨማሪ እና እንዲሁም ወደ 1700 ሰዓታት ያህል የተገለበጡ የሬዲዮ ትርዒቶች ቅጂዎችን ጨምሮ።

ለማውረድ የቀረበውን ዝግጁ የእንግሊዝኛ ቋንቋ ሞዴል ሲጠቀሙ በ DeepSpeech ውስጥ ያለው የማወቂያ ስህተት በሙከራ ስብስብ ሲገመገም 7.5% ነው። LibriSpeech. ለማነጻጸር፣ የሰውን እውቅና ለማግኘት የስህተት መጠን የተገመተ በ 5.83% ፡፡

DeepSpeech ሁለት ንዑስ ስርዓቶችን ያቀፈ ነው - አኮስቲክ ሞዴል እና ዲኮደር። አንዳንድ ቁምፊዎች በግቤት ድምጽ ውስጥ ሊኖሩ እንደሚችሉ ለማስላት የአኮስቲክ ሞዴል ጥልቅ የማሽን መማሪያ ዘዴዎችን ይጠቀማል። የቁምፊ ፕሮባቢሊቲ ውሂብን ወደ ጽሑፍ ውክልና ለመቀየር ዲኮደር የጨረር ፍለጋ ስልተ-ቀመር ይጠቀማል።

ዋና ፈጠራዎች DeepSpeech 0.6 (0.6 ቅርንጫፍ ከቀደምት ልቀቶች ጋር ተኳሃኝ አይደለም እና የኮድ እና የሞዴል ዝመናዎችን ይፈልጋል)

  • ከፍተኛ ምላሽ የሚሰጥ እና ከተሰራው የድምጽ መረጃ መጠን ነጻ የሆነ አዲስ የዥረት ዲኮደር ቀርቧል። በዚህ ምክንያት አዲሱ የ DeepSpeech እትም ዕውቅና ለማግኘት ያለውን መዘግየት ወደ 260 ms ዝቅ ማድረግ ችሏል፣ ይህም ከበፊቱ በ73% ፈጣን ነው፣ እና DeepSpeech በንግግር ማወቂያ መፍትሄዎች ላይ በበረራ ላይ እንዲውል ያስችለዋል።
  • በኤፒአይ ላይ ለውጦች ተደርገዋል እና የተግባር ስሞችን የማዋሃድ ስራ ተሰርቷል። ስለ ማመሳሰል ተጨማሪ ሜታዳታ ለማግኘት ተግባራት ተጨምረዋል፣ ይህም የጽሑፍ ውክልና እንደ ውፅዓት እንዲቀበሉ ብቻ ሳይሆን የነጠላ ቁምፊዎችን እና ዓረፍተ ነገሮችን በድምጽ ዥረቱ ውስጥ ወዳለ ቦታ ለመከታተል ያስችላል።
  • ቤተ መፃህፍቱን ለመጠቀም ድጋፍ ወደ መሳሪያ ስብስብ ሞጁሎች ተጨምሯል። CuDNN በሞዴል የሥልጠና አፈፃፀም ላይ ጉልህ የሆነ (በግምት ሁለት እጥፍ) እንዲጨምር ያስቻለው ከተደጋጋሚ የነርቭ አውታረ መረቦች (RNN) ጋር ሥራን ለማመቻቸት ፣ ግን ቀደም ሲል ከተዘጋጁ ሞዴሎች ጋር ተኳሃኝነትን የሚጥስ ኮድ ላይ ለውጦችን አስፈለገ።
  • ዝቅተኛው የ TensorFlow ስሪት መስፈርቶች ከ 1.13.1 ወደ 1.14.0 ተነስተዋል። ለቀላል ክብደት የ TensorFlow Lite ድጋፍ ታክሏል፣ ይህም የ DeepSpeech ጥቅል መጠን ከ98 ሜባ ወደ 3.7 ሜባ ይቀንሳል። በተገጠመላቸው እና በሞባይል መሳሪያዎች ላይ ጥቅም ላይ የሚውለው ፣ በአምሳያው የታሸገው ፋይል መጠን እንዲሁ ከ 188 ሜባ ወደ 47 ሜባ ቀንሷል (ሞዴሉ ከሰለጠነ በኋላ የቁጥር ዘዴው ለመጭመቅ ጥቅም ላይ ይውላል)።
  • የቋንቋ ሞዴሉ ፋይሎችን በሚጫኑበት ጊዜ ወደ ማህደረ ትውስታ ለመቅረጽ የሚያስችል ወደተለየ የውሂብ መዋቅር ቅርጸት ተተርጉሟል። የድሮው ቅርጸት ድጋፍ ተቋርጧል።
  • ፋይልን በቋንቋ ሞዴል የመጫን ዘዴ ተለውጧል, ይህም የማህደረ ትውስታ ፍጆታን ቀንሷል እና ሞዴሉን ከፈጠረ በኋላ የመጀመሪያውን ጥያቄ ሲያቀርብ መዘግየቶችን ቀንሷል. በሚሠራበት ጊዜ DeepSpeech አሁን 22 ጊዜ ያነሰ ማህደረ ትውስታን ይጠቀማል እና በ 500 ጊዜ በፍጥነት ይጀምራል።

    ሞዚላ DeepSpeech 0.6 የንግግር ማወቂያ ሞተርን ይፋ አደረገ

  • በቋንቋ ሞዴል ውስጥ ብርቅዬ ቃላት ተጣርተዋል። ሞዴሉን ለማሰልጠን ጥቅም ላይ የዋለው ጽሑፍ ውስጥ ከሚገኙት በጣም ተወዳጅ ቃላት አጠቃላይ የቃላት ብዛት ወደ 500 ሺህ ቀንሷል። ማጽዳቱ የቋንቋውን ሞዴል መጠን ከ1800ሜባ ወደ 900ሜባ እንዲቀንስ አስችሏል፣ ምንም ማለት ይቻላል በማወቂያ ስህተት መጠን ላይ ምንም ተጽእኖ አልነበረውም።
  • ለተለያዩ ድጋፍ ታክሏል። ቴክኒሽያን በስልጠና ውስጥ ጥቅም ላይ የሚውለው የድምጽ መረጃ ተጨማሪ ልዩነቶችን መፍጠር (ለምሳሌ በምርጫ ስብስብ ላይ ማዛባትን ወይም ድምጽን መጨመር)።
  • በ NET መድረክ ላይ በመመስረት ከመተግበሪያዎች ጋር ለመዋሃድ አስገዳጅነት ያለው ቤተ-መጽሐፍት ታክሏል።
  • ሰነዱ እንደገና ተሠርቷል እና አሁን በተለየ ድር ጣቢያ ላይ ተሰብስቧል። ጥልቅ ንግግር.ዶክተሮችን ያንብቡ.io.

ምንጭ: opennet.ru

አስተያየት ያክሉ