Google кодеки аудиоии Lyra V2-ро муаррифӣ кард, ки усулҳои омӯзиши мошинро барои ба даст овардани сифати ҳадди аксар дар каналҳои алоқаи хеле суст истифода мебарад. Варианти нав гузариш ба меъмории нави шабакаи нейронӣ, дастгирии платформаҳои иловагӣ, имкониятҳои васеътари назорати бит, беҳбуди иҷроиш ва сифати баландтари аудиоро дар бар мегирад. Татбиқи рамзи истинод дар C++ навишта шудааст ва таҳти иҷозатномаи Apache 2.0 паҳн карда мешавад.
Дар робита ба сифати маълумоти овозии интиқолшуда бо суръати паст, Lyra аз кодекҳои анъанавӣ, ки усулҳои коркарди сигналҳои рақамиро истифода мебаранд, хеле бартарӣ дорад. Барои ноил шудан ба интиқоли баландсифати овоз дар шароити миқдори маҳдуди иттилооти интиқолшаванда, ба ғайр аз усулҳои анъанавии фишурдани аудио ва табдили сигнал, Lyra модели нутқро дар асоси системаи омӯзиши мошинсозӣ истифода мебарад, ки ба шумо имкон медиҳад, ки маълумоти гумшуда дар асоси хусусиятҳои нутқи хос.
Кодек дорои рамзгузор ва декодер мебошад. Алгоритми рамзгузор барои истихроҷи параметрҳои додаҳои овозӣ дар ҳар 20 миллисония, фишурдани онҳо ва интиқоли онҳо ба қабулкунанда тавассути шабака бо суръати бит аз 3.2 кбит / сония то 9.2 кбит / сония аст. Дар охири қабулкунанда, декодер модели тавлидкунандаро барои аз нав сохтани сигнали аслии нутқ дар асоси параметрҳои аудиои интиқолшуда истифода мебарад, ки ба онҳо спектрограммаҳои логарифмикии вуҷуҳи вуҷуҳи логарифмӣ дохил мешаванд, ки хусусиятҳои энергетикии нутқро дар диапазони басомадҳои гуногун ба назар мегиранд ва бо назардошти моделҳои дарки шунавоии инсон.
Lyra V2 модели нави тавлидкунандаро дар асоси шабакаи нейронии конволютсионӣ SoundStream истифода мебарад, ки талаботи ками ҳисоббарорӣ дорад ва имкон медиҳад, ки дар вақти воқеӣ ҳатто дар системаҳои камқувват рамзкушоӣ кунад. Моделе, ки барои тавлиди садо истифода мешуд, бо истифода аз чанд ҳазор соат сабти овозӣ ба беш аз 90 забон омӯхта шудааст. Барои иҷрои модел TensorFlow Lite истифода мешавад. Иҷрои татбиқи пешниҳодшуда барои рамзгузории нутқ ва рамзкушоӣ дар смартфонҳо дар доираи нархҳои пасттар кофӣ аст.
Илова ба истифодаи модели гуногуни генеративӣ, версияи нав инчунин бо ворид кардани пайвандҳо ба меъмории кодек бо квантизатори RVQ (Residual Vector Quantizer), ки пеш аз интиқоли маълумот дар тарафи ирсолкунанда ва аз ҷониби қабулкунанда иҷро карда мешавад, назаррас аст. пас аз гирифтани маълумот. Квантизатор параметрҳоеро, ки кодек тавлид кардааст, ба маҷмӯи пакетҳо табдил медиҳад ва иттилоотро дар робита бо суръати интихобшуда рамзгузорӣ мекунад. Барои таъмини сатҳҳои гуногуни сифат, квантизаторҳо барои се бит (3.2 кп/с, 6 кбит/с ва 9.2 кбит/с) пешбинӣ шудаанд, суръати бит ҳар қадар баланд бошад, сифат ҳамон қадар беҳтар мешавад, аммо талаботи фарохмаҷро ҳамон қадар баландтар аст.

Архитектураи нав таъхирҳои интиқоли сигналро аз 100 то 20 миллисония коҳиш додааст. Барои муқоиса, кодеки Opus барои WebRTC дар суръати битҳои озмудашуда таъхирҳои 26.5ms, 46.5ms ва 66.5ms-ро нишон дод. Фаъолияти рамзгузор ва декодер низ ба таври назаррас афзоиш ёфт - нисбат ба версияи қаблӣ то 5 маротиба тезтар. Масалан, дар смартфони Pixel 6 Pro, кодеки нав намунаи 20 мс-ро дар 0.57 мс рамзгузорӣ ва рамзкушоӣ мекунад, ки ин нисбат ба интиқоли вақти воқеӣ 35 маротиба тезтар аст.
Илова ба иҷроиш, инчунин имкон дошт, ки сифати барқарорсозии садо беҳтар карда шавад - мувофиқи ҷадвали MUSHRA, сифати сухан дар суръати 3.2 kbps, 6 kbps ва 9.2 kbps ҳангоми истифодаи кодек Lyra V2 ба битрейтҳои 10 кбит, 13 кбит мувофиқат мекунад. кбит ва 14 kbps ҳангоми истифодаи кодек Opus.
Манбаъ: opennet.ru
