Google ṣe idasilẹ Lyra V2 kodẹki ohun afetigbọ orisun ṣiṣi

Google ti ṣafihan koodu kodẹki ohun Lyra V2, eyiti o nlo awọn ilana ikẹkọ ẹrọ lati ṣaṣeyọri didara ohun ti o pọju lori awọn ikanni ibaraẹnisọrọ ti o lọra pupọ. Ẹya tuntun n ṣe ẹya iyipada si faaji nẹtiwọọki tuntun, atilẹyin fun awọn iru ẹrọ afikun, iṣakoso bitrate imudara, awọn ilọsiwaju iṣẹ ati didara ohun ti o ga julọ. Imuse koodu itọkasi ti kọ sinu C ++ ati pinpin labẹ iwe-aṣẹ Apache 2.0.

Ni awọn ofin ti didara data ohun ti a gbejade ni awọn iyara kekere, Lyra ga ni pataki si awọn kodẹki ibile ti o lo awọn ọna ṣiṣe ifihan agbara oni-nọmba. Lati le ṣaṣeyọri gbigbe ohun didara ga ni awọn ipo ti iye to lopin ti alaye gbigbe, ni afikun si awọn ọna deede ti funmorawon ohun ati iyipada ifihan agbara, Lyra nlo awoṣe ọrọ ti o da lori eto ẹkọ ẹrọ ti o fun ọ laaye lati tun alaye ti o padanu. da lori aṣoju ọrọ abuda.

Kodẹki naa pẹlu kooduopo ati oluyipada kan. Algoridimu ti kooduopo ni lati jade awọn aye data ohun ni gbogbo 20 milliseconds, compress wọn ki o gbe wọn lọ si olugba lori nẹtiwọọki pẹlu oṣuwọn bit lati 3.2kbps si 9.2kbps. Ni ẹgbẹ olugba, oluyipada naa nlo awoṣe ipilẹṣẹ lati tun ṣe ifihan ifihan ọrọ atilẹba ti o da lori awọn aye ohun afetigbọ ti a firanṣẹ, eyiti o pẹlu awọn iwoye chalk chalk logarithmic ti o ṣe akiyesi awọn abuda agbara ọrọ ni awọn sakani igbohunsafẹfẹ oriṣiriṣi ati pe o ti mura silẹ ni akiyesi iwoye igbọran eniyan. awoṣe.

Lyra V2 nlo awoṣe ipilẹṣẹ tuntun ti o da lori SoundStream convolutional neural nẹtiwọọki, eyiti o jẹ ijuwe nipasẹ awọn ibeere kekere ni awọn orisun iširo, eyiti o fun laaye iyipada akoko gidi paapaa lori awọn eto agbara kekere. Awoṣe ti a lo lati ṣe ipilẹṣẹ ohun naa ti ni ikẹkọ nipa lilo ọpọlọpọ awọn wakati awọn gbigbasilẹ ohun ni awọn ede ti o ju 90 lọ. TensorFlow Lite jẹ lilo lati ṣiṣẹ awoṣe naa. Iṣe ti imuse ti a dabaa jẹ to fun fifi koodu ati iyipada ọrọ lori awọn fonutologbolori ti iwọn idiyele kekere.

Ni afikun si lilo awoṣe ipilẹṣẹ ti o yatọ, ẹya tuntun tun jẹ ohun akiyesi fun ifisi awọn ọna asopọ pẹlu quantizer RVQ (Residual Vector Quantizer) ninu faaji kodẹki, eyiti o ṣe ni ẹgbẹ olufiranṣẹ ṣaaju gbigbe data, ati ni ẹgbẹ olugba lẹhin gbigba data. Quantizer ṣe iyipada awọn paramita ti a fun nipasẹ kodẹki sinu awọn akopọ ti awọn apo-iwe, fifi koodu pamọ alaye ni ibatan si bitrate ti o yan. Lati rii daju pe o yatọ si awọn ipele ti didara, awọn quantizers ti pese fun awọn oṣuwọn bit mẹta (3.2 kps, 6 kbps ati 9.2 kbps), ti o ga julọ oṣuwọn bit, ti o dara julọ didara, ṣugbọn ti o ga julọ awọn ibeere bandiwidi.

Google ṣe idasilẹ Lyra V2 kodẹki ohun afetigbọ orisun ṣiṣi

Awọn faaji tuntun ti dinku awọn idaduro gbigbe ifihan agbara lati 100 si 20 milliseconds. Fun lafiwe, kodẹki Opus fun WebRTC ṣe afihan awọn idaduro ti 26.5ms, 46.5ms ati 66.5ms ni idanwo awọn bitrates. Iṣe ti kooduopo ati oluyipada tun ti pọ si ni pataki - ni akawe si ẹya ti tẹlẹ, isare ti to awọn akoko 5 wa. Fun apẹẹrẹ, lori Pixel 6 Pro foonuiyara, koodu koodu titun ti n ṣe koodu ati ṣe iyipada ayẹwo 20-ms ni 0.57 ms, eyiti o jẹ awọn akoko 35 yiyara ju pataki fun gbigbe akoko gidi.

Ni afikun si iṣẹ, a tun ṣakoso lati mu didara imupadabọ ohun dun - ni ibamu si iwọn MUSHRA, didara ọrọ ni awọn oṣuwọn bit ti 3.2 kbps, 6 kbps ati 9.2 kbps nigba lilo kodẹki Lyra V2 ni ibamu si awọn oṣuwọn bit ti 10. kbps, 13 kbps ati 14 kbps nigba lilo kodẹki Opus.

orisun: opennet.ru

Fi ọrọìwòye kun