የሞዚላ የጋራ ድምጽ 8.0 ዝማኔ

ሞዚላ ወደ 200 የሚጠጉ ሰዎች የቃላት አጠራር ናሙናዎችን የሚያጠቃልለውን የጋራ ድምጽ መረጃ ስብስቦችን ማሻሻያ አውጥቷል። ውሂቡ እንደ ይፋዊ ጎራ (CC0) ታትሟል። የቀረቡት ስብስቦች የንግግር ማወቂያ እና ውህደት ሞዴሎችን ለመገንባት በማሽን መማሪያ ስርዓቶች ውስጥ ጥቅም ላይ ሊውሉ ይችላሉ. ከቀዳሚው ዝመና ጋር ሲነፃፀር በስብስቡ ውስጥ ያለው የንግግር ቁሳቁስ መጠን በ 30% ጨምሯል - ከ 13.9 እስከ 18.2 ሺህ ሰዓታት ንግግር። የሚደገፉ ቋንቋዎች ቁጥር ከ67 ወደ 87 አድጓል።

ለሩሲያ ቋንቋ የተዘጋጀው 2452 ተሳታፊዎች እና 193 ሰዓታት የንግግር ቁሳቁስ (2136 ተሳታፊዎች እና 173 ሰዓታት ነበሩ) ፣ ለቤላሩስ ቋንቋ - 6160 ተሳታፊዎች እና 987 ሰዓታት (3831 ተሳታፊዎች እና 356 ሰዓታት ነበሩ) ፣ ለዩክሬን ቋንቋ - 684 ተሳታፊዎች እና 76 ሰዓቶች (615 ተሳታፊዎች እና 66 ሰዓቶች ነበሩ). ከ 79 ሺህ በላይ ሰዎች በእንግሊዘኛ ቁሳቁሶች ዝግጅት ላይ ተሳትፈዋል, 2886 ሰዓታት የተረጋገጠ ንግግር (75 ሺህ ተሳታፊዎች እና 2637 ሰዓታት ነበሩ).

የጋራ ቮይስ ፕሮጀክት የድምፅ እና የንግግር ዘይቤዎችን ልዩነት ያገናዘበ የድምፅ ዘይቤዎችን የውሂብ ጎታ ለመሰብሰብ የጋራ ስራዎችን ለማደራጀት ያለመ መሆኑን እናስታውስዎት። ተጠቃሚዎች በማያ ገጹ ላይ ለሚታዩ የድምጽ ሀረጎች ተጋብዘዋል ወይም በሌሎች ተጠቃሚዎች የተጨመረውን የውሂብ ጥራት ይገመግማሉ። የተከማቸ ዳታቤዝ በተለያዩ የሰዎች የንግግር ሀረጎች አጠራር መዝገቦች ያለ ምንም ገደብ በማሽን መማሪያ ስርዓቶች እና በምርምር ፕሮጄክቶች ውስጥ ጥቅም ላይ ሊውል ይችላል። እንደ ቮስክ ቀጣይነት ያለው የንግግር ማወቂያ ቤተ-መጽሐፍት ጸሐፊ ​​እንደገለጸው, የጋራ ድምጽ ስብስብ ጉዳቶች የድምፅ ቁሳቁስ አንድ-ጎን (የወንዶች የበላይነት ከ20-30 ዓመት እድሜ ያላቸው እና ከሴቶች ድምጽ ጋር የቁሳቁስ እጥረት) ናቸው. , ልጆች እና አረጋውያን), በመዝገበ-ቃላቱ ውስጥ ተለዋዋጭነት አለመኖር (ተመሳሳይ ሀረጎች መደጋገም) እና የተቀረጹ ጽሑፎች በተዛባ የ MP3 ቅርጸት.

በተጨማሪም፣ የንግግር ማወቂያ ስርዓቶችን፣ የንግግር ውህደትን እና የተፈጥሮ ቋንቋን ሂደት ለመፍጠር የማሽን መማሪያ ዘዴዎችን የሚሰጥ የNVDIA NeMo 1.6 Toolkit መለቀቁን ልብ ልንል እንችላለን። NeMo በPyTorch ማእቀፍ ላይ ተመስርተው ለማሽን መማሪያ ስርዓቶች ለአገልግሎት ዝግጁ የሆኑ የሰለጠኑ ሞዴሎችን ያካትታል፣ በNVDIA የተዘጋጀው የጋራ ድምጽ የንግግር መረጃን በመጠቀም እና የተለያዩ ቋንቋዎችን፣ ዘዬዎችን እና የንግግር ቅርጾችን ይሸፍናል። ሞዴሎቹ በድምጽ ላይ የተመሰረቱ የውይይት ሥርዓቶችን፣ የጽሑፍ ግልባጭ መድረኮችን እና አውቶማቲክ የጥሪ ማዕከሎችን ለሚገነቡ ተመራማሪዎች ጠቃሚ ሊሆኑ ይችላሉ። ለምሳሌ, NVIDIA NeMo በ MTS እና Sberbank አውቶማቲክ የድምጽ አገልግሎቶች ውስጥ ጥቅም ላይ ይውላል. የኒሞ ኮድ ፒቶርችን በመጠቀም በፓይዘን የተፃፈ እና በ Apache 2.0 ፍቃድ ስር ይሰራጫል።

ምንጭ: opennet.ru

አስተያየት ያክሉ