Google нь ярианы чанар муутай үед дамжуулах Lyra аудио кодлогчийг нийтлэв

Google нь маш удаан харилцааны сувгуудыг ашиглаж байсан ч дуу хоолойны чанарыг дээд зэргээр хангахын тулд оновчтой болгосон Lyra хэмээх шинэ аудио кодлогчийг танилцууллаа. Lyra хэрэгжүүлэлтийн код нь C++ хэл дээр бичигдсэн бөгөөд Apache 2.0 лицензийн дагуу нээгддэг боловч ажиллахад шаардлагатай хамааралуудын дунд математик тооцоололд зориулсан цөмийн хэрэглүүртэй libsparse_inference.so өмчийн номын сан байдаг. Өмчлөлийн номын сан нь түр зуурынх гэдгийг тэмдэглэж байна - ирээдүйд Google нээлттэй орлуулалтыг боловсруулж, янз бүрийн платформуудад дэмжлэг үзүүлэхээ амлаж байна.

Бага хурдтайгаар дамжуулах дуут мэдээллийн чанарын хувьд Lyra нь дижитал дохио боловсруулах аргыг ашигладаг уламжлалт кодлогчоос хамаагүй давуу юм. Хязгаарлагдмал хэмжээний дамжуулагдсан мэдээллийн нөхцөлд дуу хоолойг өндөр чанартай дамжуулахын тулд аудио шахах, дохио хувиргах уламжлалт аргуудаас гадна Lyra нь машины сургалтын системд суурилсан ярианы загварыг ашигладаг бөгөөд энэ нь алга болсон мэдээллийг дахин үүсгэх боломжийг олгодог. ярианы ердийн шинж чанарууд. Дуу гаргахад ашигласан загварыг 70 гаруй хэл дээр хэдэн мянган цагийн дуу бичлэгийн бичлэг ашиглан сургасан.

Google нь ярианы чанар муутай үед дамжуулах Lyra аудио кодлогчийг нийтлэв

Кодек нь кодлогч ба декодлогчийг агуулдаг. Кодлогчийн алгоритм нь 40 миллисекунд тутамд дуут өгөгдлийн параметрүүдийг гаргаж, тэдгээрийг шахаж, сүлжээгээр дамжуулан хүлээн авагч руу дамжуулахад хүргэдэг. Мэдээлэл дамжуулахад секундэд 3 килобит хурдтай холбооны суваг хангалттай. Олж авсан аудио параметрүүд нь янз бүрийн давтамжийн муж дахь ярианы энергийн шинж чанарыг харгалзан үздэг логарифмын мел спектрограммуудыг агуулдаг бөгөөд хүний ​​сонсголын ойлголтын загварыг харгалзан бэлтгэдэг.

Google нь ярианы чанар муутай үед дамжуулах Lyra аудио кодлогчийг нийтлэв

Декодер нь дамжуулагдсан аудио параметрүүд дээр үндэслэн ярианы дохиог дахин үүсгэдэг үүсгэгч загварыг ашигладаг. Тооцооллын нарийн төвөгтэй байдлыг багасгахын тулд давтагдах мэдрэлийн сүлжээнд суурилсан хөнгөн загварыг ашигласан бөгөөд энэ нь бага түүвэрлэлтийн давтамжийг ашигладаг, гэхдээ өөр өөр давтамжийн мужид хэд хэдэн дохиог зэрэгцээ үүсгэдэг WaveRNN ярианы синтезийн загварын хувилбар юм. Үүний дараа үүссэн дохионуудыг давхарлан суулгаж, заасан түүвэрлэлтийн хурдтай тохирох нэг гаралтын дохиог үүсгэдэг.

64 битийн ARM процессоруудад байдаг тусгай процессорын зааврыг мөн хурдатгалд ашигладаг. Үүний үр дүнд, машин сургалтын хэрэглээг үл харгалзан Lyra кодлогчийг дунд түвшний ухаалаг гар утсанд бодит цагийн ярианы кодчилол, код тайлахад ашиглаж болох бөгөөд дохио дамжуулах хоцрогдол 90 миллисекунд байна.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх