Google Lyra V2 ачык булак аудио кодегин чыгарат

Google Lyra V2 аудио кодегин ишке киргизди, ал өтө жай байланыш каналдары аркылуу үнүнүн максималдуу сапатына жетүү үчүн машина үйрөнүү ыкмаларын колдонот. Жаңы версия жаңы нейрондук тармак архитектурасына өтүүнү, кошумча платформаларды колдоону, бит ылдамдыгын көзөмөлдөөнү, аткарууну жакшыртууну жана жогорку аудио сапатын камтыйт. Маалымдама кодун ишке ашыруу C++ тилинде жазылган жана Apache 2.0 лицензиясынын алкагында таратылган.

Төмөн ылдамдыкта берилүүчү үн маалыматтарынын сапаты боюнча Lyra санариптик сигналдарды иштетүү ыкмаларын колдонгон салттуу кодектерден бир топ жогору турат. Өткөрүлүүчү маалыматтын чектелген көлөмүнүн шарттарында үндүн жогорку сапатына жетүү үчүн, аудио кысуу жана сигналды конвертациялоонун кадимки ыкмаларынан тышкары, Lyra жетишпеген маалыматты кайра жаратууга мүмкүндүк берүүчү машинаны үйрөнүү системасынын негизинде сүйлөө моделин колдонот. типтүү кеп өзгөчөлүктөрүнө негизделген.

Кодек бир коддоочу жана декодер камтыйт. Кодердун алгоритми үн маалыматынын параметрлерин ар бир 20 миллисекундда бөлүп алуу, аларды кысуу жана 3.2 кбит/с дан 9.2 кбит/сек га чейин бит ылдамдыгы менен тармак аркылуу алуучуга өткөрүп берүү болуп саналат. Кабыл алуучу тарапта декодер берилүүчү аудио параметрлеринин негизинде баштапкы кеп сигналын кайра жаратуу үчүн генеративдик моделди колдонот, алар ар кандай жыштык диапазондорунда сүйлөө энергиясынын өзгөчөлүктөрүн эске алган жана адамдын угуу кабылдоосун эске алуу менен даярдалган логарифмдик бор спектрограммаларын камтыйт. модель.

Lyra V2 SoundStream конволюциондук нейрон тармагына негизделген жаңы генеративдик моделди колдонот, ал эсептөө ресурстарына төмөн талаптар менен мүнөздөлөт, ал аз кубаттуу системаларда да реалдуу убакыт режиминде декоддоштурууга мүмкүндүк берет. Үн чыгаруу үчүн колдонулган модель 90дон ашык тилде бир нече миң сааттык үн жазууларын колдонуу менен үйрөтүлгөн. Моделди аткаруу үчүн TensorFlow Lite колдонулат. Сунушталган ишке ашыруунун көрсөткүчү төмөн баа диапазонундагы смартфондордо сөздү коддоо жана декоддоо үчүн жетиштүү.

Башка генеративдик моделди колдонуудан тышкары, жаңы версия кодек архитектурасына RVQ (калдык вектордук квантизатор) менен байланыштарды камтышы менен өзгөчөлөнөт, ал маалыматтарды жөнөтүүдөн мурун жөнөтүүчү тарапта жана алуучу тарапта аткарылат. маалыматтарды кабыл алгандан кийин. Квантаизатор кодек тарабынан берилген параметрлерди тандалган бит ылдамдыгына карата маалыматты коддоо менен пакеттердин топтомуна айлантат. Сапаттын ар кандай деңгээлин камсыз кылуу үчүн квантизаторлор үч бит ылдамдыгы үчүн (3.2 к/с, 6 кбит/с жана 9.2 кбит) каралган, бит ылдамдыгы канчалык жогору болсо, сапат ошончолук жакшы болот, бирок өткөрүү жөндөмдүүлүгүнө талаптар ошончолук жогору болот.

Google Lyra V2 ачык булак аудио кодегин чыгарат

Жаңы архитектура сигнал берүүнүн кечигүүлөрүн 100дөн 20 миллисекундга чейин кыскартты. Салыштыруу үчүн, WebRTC үчүн Opus кодеги сыналган бит ылдамдыктарында 26.5 мс, 46.5 мс жана 66.5 мс кечигүүлөрдү көрсөттү. Кодердун жана декодердин иштеши да бир топ жогорулады - мурунку версияга салыштырмалуу 5 эсеге чейин ылдамдатуу бар. Мисалы, Pixel 6 Pro смартфонунда жаңы кодек 20 мс үлгүсүн 0.57 мс ичинде коддошот жана чечмелейт, бул реалдуу убакыт режиминде өткөрүү үчүн зарыл болгондон 35 эсе тезирээк.

Аткаруудан тышкары, биз үндөрдү калыбына келтирүүнүн сапатын да жакшырта алдык - MUSHRA шкаласына ылайык, Lyra V3.2 кодегин колдонууда 6 kbps, 9.2 kbps жана 2 kbps бит ылдамдыктарындагы сүйлөө сапаты 10 бит ылдамдыгына туура келет. Kbps, 13 kbps жана 14 kbps Opus кодегин колдонууда.

Source: opennet.ru

Комментарий кошуу