የሲሊሮ ንግግር ውህደት ስርዓት አዲስ ልቀት

የሲሊሮ ጽሑፍ-ወደ-ንግግር የነርቭ አውታረ መረብ የንግግር ውህደት ስርዓት አዲስ ይፋዊ ልቀት አለ። ፕሮጀክቱ በዋናነት ዘመናዊ ጥራት ያለው የንግግር ውህደት ስርዓት ለመፍጠር ያለመ ሲሆን ከኮርፖሬሽኖች የንግድ መፍትሄዎች ያላነሰ እና ውድ የሆኑ የአገልጋይ መሳሪያዎችን ሳይጠቀም ለሁሉም ሰው ተደራሽ ነው.

ሞዴሎቹ በጂኤንዩ AGPL ፍቃድ ተሰራጭተዋል ነገርግን ፕሮጀክቱን የሚያዘጋጀው ኩባንያ ሞዴሎቹን የማሰልጠን ዘዴን አይገልጽም። ለማሄድ፣ የ ONNX ቅርጸትን የሚደግፉ PyTorch እና frameworks መጠቀም ይችላሉ። በሲሊሮ ውስጥ የንግግር ውህደት በጥልቅ የተሻሻሉ ዘመናዊ የነርቭ አውታረ መረብ ስልተ ቀመሮችን እና የዲጂታል ምልክት ማቀነባበሪያ ዘዴዎችን በመጠቀም ላይ የተመሠረተ ነው።

ለንግግር ውህደት የዘመናዊው የነርቭ አውታረ መረብ መፍትሄዎች ዋነኛው ችግር ብዙውን ጊዜ በተከፈለ የደመና መፍትሄዎች ውስጥ ብቻ የሚገኙ መሆናቸው እና የህዝብ ምርቶች ከፍተኛ የሃርድዌር ፍላጎቶች አሏቸው ፣ ጥራቱን ያልጠበቁ ናቸው ወይም ሙሉ እና ለአገልግሎት ዝግጁ አለመሆናቸው ነው ። ምርቶች. ለምሳሌ፣ ከአዲሶቹ ተወዳጅ ከጫፍ እስከ ጫፍ የማዋሃድ አርክቴክቸር አንዱን VITS፣ በተቀላጠፈ ሁኔታ በሲንተሲስ ሁነታ (ማለትም፣ ለሞዴል ስልጠና አይደለም)፣ ከ16 ጊጋባይት በላይ ቪራም ያላቸው የቪዲዮ ካርዶች ያስፈልጋሉ።

አሁን ካለው አዝማሚያ በተቃራኒ የሲሊሮ መፍትሄዎች በ 1 x86 የኢንቴል ፕሮሰሰር ከ AVX2 መመሪያዎች ጋር በተሳካ ሁኔታ ይሰራሉ። በ 4 ፕሮሰሰር ክሮች ላይ, ውህደቱ በሴኮንድ ከ 30 እስከ 60 ሰከንድ በ 8 kHz synthesize ሁነታ, በ 24 kHz ሁነታ - 15-20 ሰከንድ እና በ 48 kHz ሁነታ - 10 ሰከንድ ያህል እንዲዋሃዱ ይፈቅድልዎታል.

የአዲሱ የSilero ልቀት ቁልፍ ባህሪዎች፡-

  • የአምሳያው መጠን በ 2 እጥፍ ወደ 50 ሜጋባይት ቀንሷል;
  • ሞዴሎች ለአፍታ ማቆም እንደሚችሉ ያውቃሉ;
  • በሩሲያኛ 4 ከፍተኛ ጥራት ያላቸው ድምፆች ይገኛሉ (እና ወሰን የሌለው የዘፈቀደ ቁጥር)። የቃላት አጠራር ምሳሌዎች;
  • ሞዴሎቹ በ 10 እጥፍ ፈጣን ሆነዋል እና ለምሳሌ ፣ በ 24 kHz ሁነታ በ 20 ፕሮሰሰር ክሮች ላይ እስከ 4 ሰከንድ ኦዲዮ በሰከንድ እንዲዋሃዱ ያስችሉዎታል ።
  • ለአንድ ቋንቋ ሁሉም የድምጽ አማራጮች በአንድ ሞዴል ውስጥ ተጭነዋል;
  • ሞዴሎች ሙሉውን የጽሑፍ አንቀጾች እንደ ግብአት መቀበል ይችላሉ, የኤስኤስኤምኤል መለያዎች ይደገፋሉ;
  • ውህደቱ በሦስት የናሙና ድግግሞሾች ውስጥ በአንድ ጊዜ ይሰራል - 8, 24 እና 48 ኪሎኸርዝ;
  • "የልጆች ችግሮች" ተፈትተዋል: አለመረጋጋት እና የጠፉ ቃላት;
  • የድምጾችን አውቶማቲክ አቀማመጥ ለመቆጣጠር እና የ"ኢ" ፊደል አቀማመጥን ለመቆጣጠር ባንዲራዎች ታክለዋል።

በአሁኑ ጊዜ ለአዲሱ የውህደት ስሪት 4 ድምፆች በሩሲያኛ በይፋ ይገኛሉ ነገር ግን በቅርብ ጊዜ ውስጥ የሚቀጥለው እትም በሚከተለው ለውጦች ይታተማል።

  • የማዋሃድ መጠን ሌላ 2-4 ጊዜ ይጨምራል;
  • ለሲአይኤስ ቋንቋዎች የተዋሃዱ ሞዴሎች ይሻሻላሉ-ካልሚክ ፣ ታታር ፣ ኡዝቤክ እና ዩክሬንኛ;
  • ለአውሮፓ ቋንቋዎች ሞዴሎች ይታከላሉ;
  • የሕንድ ቋንቋዎች ሞዴሎች ይታከላሉ;
  • የእንግሊዝኛ ሞዴሎች ይታከላሉ.

በሲሌሮ ውህደት ውስጥ አንዳንድ የስርዓት ብልሽቶች፡-

  • እንደ RHVoice ካሉ ባህላዊ የማዋሃድ መፍትሄዎች በተለየ የሲሊሮ ውህድ የSAPI ውህደት፣ በቀላሉ የሚጫኑ ደንበኞች፣ ወይም ለWindows እና Android ውህደቶች የሉትም።
  • ፍጥነቱ ምንም እንኳን ከዚህ በፊት ታይቶ በማይታወቅ ሁኔታ ለእንደዚህ ዓይነቱ መፍትሄ ከፍተኛ ጥራት ባለው ደካማ ማቀነባበሪያዎች ላይ በበረራ ላይ ለማዋሃድ በቂ ላይሆን ይችላል;
  • የራስ-አስተያየት መፍትሔው ሆሞግራፍ (እንደ ቤተመንግስት እና ቤተመንግስት ያሉ ቃላትን) አያስተናግድም እና አሁንም ስህተቶችን ያደርጋል ፣ ግን ይህ ወደፊት በሚለቀቁት እትሞች ውስጥ ይስተካከላል።
  • አሁን ያለው የማዋሃድ ስሪት ያለ AVX2 መመሪያ በአቀነባባሪዎች ላይ አይሰራም (ወይንም የ PyTorch ቅንብሮችን መለወጥ ያስፈልግዎታል) ምክንያቱም በአምሳያው ውስጥ ካሉት ሞጁሎች ውስጥ አንዱ በቁጥር ይገለጻል;
  • የአሁኑ የውህደት ስሪት በመሠረቱ አንድ ነጠላ የፒቶርች ጥገኝነት አለው፤ ሁሉም ነገሮች በአምሳያው እና በጂአይቲ ፓኬጆች ውስጥ “በሃርድዌር የተጠመዱ” ናቸው። የሞዴሎቹ ምንጭ ኮዶች አልታተሙም, እንዲሁም ሞዴሎችን ከሌሎች ቋንቋዎች ከ PyTorch ደንበኞች የማሄድ ኮድ;
  • ሊብቶርች፣ ለሞባይል ፕላትፎርሞች የሚገኝ፣ ከ ONNX አሂድ ጊዜ የበለጠ ትልቅ ነው፣ ነገር ግን የ ONNX የአምሳያው ስሪት እስካሁን አልተገኘም።

ምንጭ: opennet.ru

አስተያየት ያክሉ