Google өте баяу байланыс арналарында дауыстың максималды сапасына қол жеткізу үшін машиналық оқыту әдістерін қолданатын Lyra V2 аудио кодекін ұсынды. Жаңа нұсқада жаңа нейрондық желі архитектурасына көшу, қосымша платформаларды қолдау, кеңейтілген бит жылдамдығын басқару мүмкіндіктері, жақсартылған өнімділік және жоғары дыбыс сапасы бар. Анықтамалық кодты енгізу C++ тілінде жазылған және Apache 2.0 лицензиясы бойынша таратылады.
Төмен жылдамдықта берілетін дауыстық деректердің сапасы бойынша Lyra цифрлық сигналдарды өңдеу әдістерін қолданатын дәстүрлі кодектерден айтарлықтай жоғары. Жіберілетін ақпараттың шектеулі көлемі жағдайында жоғары сапалы дауысты жіберуге қол жеткізу үшін дыбысты сығудың және сигналды түрлендірудің әдеттегі әдістеріне қосымша, Lyra машиналық оқыту жүйесіне негізделген сөйлеу моделін пайдаланады, ол жетіспейтін ақпаратты қайта құруға мүмкіндік береді. типтік сөйлеу ерекшеліктері.
Кодек құрамына кодтауыш пен декодер кіреді. Кодер алгоритмі дауыстық деректер параметрлерін әрбір 20 миллисекунд сайын шығарып, оларды қысып, 3.2 кбит/с-тан 9.2 кбит/с бит жылдамдығымен желі арқылы алушыға жіберуге дейін төмендейді. Қабылдағыштың соңында декодер әртүрлі жиілік диапазонындағы сөйлеудің энергетикалық сипаттамаларын ескеретін логарифмдік бор спектрограммаларын қамтитын және берілетін дыбыс параметрлері негізінде бастапқы сөйлеу сигналын қайта құру үшін генеративті модельді пайдаланады және модельдерді ескере отырып дайындалады. адамның есту қабылдауы.
Lyra V2 SoundStream конволюционды нейрондық желісіне негізделген жаңа генеративті модельді пайдаланады, ол төмен есептеу талаптары бар, тіпті төмен қуатты жүйелерде де нақты уақытта декодтауға мүмкіндік береді. Дыбысты генерациялау үшін қолданылатын модель 90-нан астам тілде бірнеше мың сағаттық дауыстық жазбаларды қолдану арқылы оқытылды. Модельді орындау үшін TensorFlow Lite пайдаланылады. Ұсынылған іске асыру өнімділігі төмен баға диапазонындағы смартфондарда сөйлеуді кодтау және декодтау үшін жеткілікті.
Басқа генеративті модельді пайдаланудан басқа, жаңа нұсқа кодек архитектурасына деректерді жіберер алдында жіберуші жағында және қабылдаушы жағында орындалатын RVQ (қалдық векторлық квантизатор) квантизаторымен сілтемелердің қосылуымен ерекшеленеді. деректерді алғаннан кейін. Квантизатор кодек шығарған параметрлерді таңдалған бит жылдамдығына қатысты ақпаратты кодтайтын пакеттер жиынына түрлендіреді. Сапаның әртүрлі деңгейлерін қамтамасыз ету үшін квантизаторлар үш бит жылдамдығына (3.2 к/с, 6 кбит/с және 9.2 кбит/с) беріледі, бит жылдамдығы неғұрлым жоғары болса, соғұрлым сапа жақсырақ, бірақ өткізу қабілетіне қойылатын талаптар соғұрлым жоғары болады.

Жаңа архитектура сигнал берудегі кідірістерді 100-ден 20 миллисекундқа дейін азайтты. Салыстыру үшін, WebRTC-ге арналған Opus кодегі тексерілген бит жылдамдықтарында 26.5 мс, 46.5 мс және 66.5 мс кешігулерді көрсетті. Кодер мен декодердің өнімділігі де айтарлықтай өсті - алдыңғы нұсқамен салыстырғанда 5 есеге дейін жылдам. Мысалы, Pixel 6 Pro смартфонында жаңа кодек 20 мс үлгіні 0.57 мс-те кодтайды және декодтайды, бұл нақты уақыттағы жіберу үшін талап етілгеннен 35 есе жылдамырақ.
Өнімділікке қоса, дыбысты қалпына келтіру сапасын арттыруға қол жеткізуге болады - MUSHRA шкаласы бойынша, Lyra V3.2 кодекін пайдаланған кезде 6 кбит/с, 9.2 кбит/с және 2 кбит/с бит жылдамдықтарында сөйлеу сапасы 10 кбит/с бит жылдамдығына сәйкес келеді. , 13 кбит/с және Opus кодегін пайдаланған кезде 14 кбит/с.
Ақпарат көзі: opennet.ru
