Google нашар байланыс сапасымен сөйлеуді жіберуге арналған Lyra аудио кодегін жариялады

Google тіпті өте баяу байланыс арналарын пайдаланған кезде де максималды дауыс сапасына қол жеткізу үшін оңтайландырылған Lyra жаңа аудио кодекін ұсынды. Lyra іске асыру коды C++ тілінде жазылған және Apache 2.0 лицензиясы бойынша ашылған, бірақ жұмыс істеу үшін қажетті тәуелділіктер арасында математикалық есептеулер үшін ядроның іске асуы бар libsparse_inference.so меншікті кітапханасы бар. Меншікті кітапхананың уақытша екендігі атап өтілді - болашақта Google ашық ауыстыруды әзірлеуге және әртүрлі платформаларға қолдау көрсетуге уәде береді.

Төмен жылдамдықта берілетін дауыстық деректердің сапасы бойынша Lyra цифрлық сигналдарды өңдеу әдістерін қолданатын дәстүрлі кодектерден айтарлықтай жоғары. Жіберілетін ақпараттың шектеулі көлемі жағдайында жоғары сапалы дауысты жіберуге қол жеткізу үшін дыбысты сығудың және сигналды түрлендірудің әдеттегі әдістеріне қосымша, Lyra машиналық оқыту жүйесіне негізделген сөйлеу моделін пайдаланады, ол жетіспейтін ақпаратты қайта құруға мүмкіндік береді. типтік сөйлеу ерекшеліктері. Дыбысты генерациялау үшін қолданылатын модель 70-тен астам тілде бірнеше мың сағаттық дауыстық жазбаларды қолдану арқылы оқытылды.

Google нашар байланыс сапасымен сөйлеуді жіберуге арналған Lyra аудио кодегін жариялады

Кодек құрамына кодтауыш пен декодер кіреді. Кодер алгоритмі дауыс деректерінің параметрлерін әрбір 40 миллисекунд сайын шығарып, оларды қысып, желі арқылы алушыға жіберуге дейін төмендейді. Мәліметтерді жіберу үшін секундына 3 килобит жылдамдығы бар байланыс арнасы жеткілікті. Шығарылған аудио параметрлерге әртүрлі жиілік диапазонындағы сөйлеудің энергетикалық сипаттамаларын ескеретін және адамның есту қабылдау үлгісін ескере отырып дайындалатын логарифмдік мел спектрограммалары кіреді.

Google нашар байланыс сапасымен сөйлеуді жіберуге арналған Lyra аудио кодегін жариялады

Декодер генеративті модельді пайдаланады, ол берілген дыбыс параметрлеріне негізделген сөйлеу сигналын қайта жасайды. Есептеулердің күрделілігін азайту үшін қайталанатын нейрондық желіге негізделген жеңіл модель пайдаланылды, ол WaveRNN сөйлеу синтезі моделінің нұсқасы болып табылады, ол төменгі дискретизация жиілігін пайдаланады, бірақ әртүрлі жиілік диапазонында параллель бірнеше сигналдарды жасайды. Содан кейін алынған сигналдар белгіленген таңдау жылдамдығына сәйкес келетін бір шығыс сигналын шығару үшін қабаттасады.

Сондай-ақ жеделдету үшін 64-биттік ARM процессорларында қол жетімді арнайы процессор нұсқаулары қолданылады. Нәтижесінде, машиналық оқытуды қолдануға қарамастан, Lyra кодекін 90 миллисекундтық сигнал беру кідірісін көрсететін орта диапазондағы смартфондарда нақты уақыт режимінде сөйлеуді кодтау және декодтау үшін пайдалануға болады.

Ақпарат көзі: opennet.ru

пікір қалдыру