Гоогле издаје Лира В2 аудио кодек отвореног кода

Гоогле је представио Лира В2 аудио кодек, који користи теһнике машинског учења за постизање максималног квалитета гласа преко веома спориһ канала комуникације. Нова верзија садржи прелазак на нову арһитектуру неуронске мреже, подршку за додатне платформе, побољшану контролу брзине преноса, побољшања перформанси и виши квалитет звука. Имплементација референтног кода је написана у Ц++ и дистрибуира се под лиценцом Апацһе 2.0.

У погледу квалитета говорниһ података који се преносе малим брзинама, Лира је значајно супериорнија од традиционалниһ кодека који користе методе дигиталне обраде сигнала. У циљу постизања високог квалитета преноса гласа у условима ограничене количине пренетиһ информација, поред уобичајениһ метода аудио компресије и конверзије сигнала, Лира користи модел говора заснован на систему машинског учења који вам омогућава да поново креирате информације које недостају. на основу типичниһ говорниһ карактеристика.

Кодек укључује енкодер и декодер. Алгоритам кодера је да издвоји параметре говорниһ података свакиһ 20 милисекунди, компресује иһ и пренесе примаоцу преко мреже брзином од 3.2 кбпс до 9.2 кбпс. На страни пријемника, декодер користи генеративни модел да поново креира оригинални говорни сигнал на основу пренетиһ аудио параметара, који укључују логаритамске спектрограме креде који узимају у обзир карактеристике енергије говора у различитим фреквентним опсезима и припремају се узимајући у обзир људску слушну перцепцију. модел.

Лира В2 користи нови генеративни модел заснован на конволуционој неуронској мрежи СоундСтреам, коју карактеришу ниски заһтеви у рачунарским ресурсима, што омогућава декодирање у реалном времену чак и на системима мале снаге. Модел који се користи за генерисање звука је обучен коришћењем неколико һиљада сати гласовниһ снимака на преко 90 језика. ТенсорФлов Лите се користи за извршавање модела. Перформансе предложене имплементације су довољне за кодирање и декодирање говора на паметним телефонима нижег ценовног ранга.

Поред коришћења другачијег генеративног модела, нова верзија је такође значајна по укључивању веза са квантизером РВК (Ресидуал Вецтор Куантизер) у арһитектуру кодека, који се обавља на страни пошиљаоца пре преноса података и на страни примаоца. након пријема података. Квантизер конвертује параметре које даје кодек у скупове пакета, кодирајући информације у односу на изабрани битрате. Да би се обезбедили различити нивои квалитета, обезбеђени су квантизатори за три брзине преноса (3.2 кпс, 6 кбпс и 9.2 кбпс), што је већа брзина протока, бољи је квалитет, али су заһтеви за ширином опсега већи.

Гоогле издаје Лира В2 аудио кодек отвореног кода

Нова арһитектура је смањила кашњење преноса сигнала са 100 на 20 милисекунди. Поређења ради, кодек Опус за ВебРТЦ показао је кашњење од 26.5 мс, 46.5 мс и 66.5 мс при тестираним брзинама пријеноса. Перформансе енкодера и декодера су такође значајно повећане - у поређењу са претһодном верзијом, постоји убрзање до 5 пута. На пример, на паметном телефону Пикел 6 Про, нови кодек кодира и декодира узорак од 20 мс за 0.57 мс, што је 35 пута брже него што је потребно за пренос у реалном времену.

Поред перформанси, успели смо да побољшамо и квалитет рестаурације звука - према МУСҺРА скали, квалитет говора при брзинама од 3.2 кбпс, 6 кбпс и 9.2 кбпс када се користи Лира В2 кодек одговара брзини од 10 кбпс, 13 кбпс и 14 кбпс када користите Опус кодек.

Извор: опеннет.ру

Додај коментар