Google har åpnet de manglende kildene for Lyra-lydkodeken

Google har publisert en oppdatering til Lyra 0.0.2 lydkodeken, som er optimalisert for å oppnå maksimal stemmekvalitet ved bruk av svært trege kommunikasjonskanaler. Kodeken ble åpnet i begynnelsen av april, men ble levert i forbindelse med et proprietært matematisk bibliotek. I versjon 0.0.2 er denne ulempen eliminert og det er opprettet en åpen erstatning for det spesifiserte biblioteket - sparse_matmul, som, i likhet med selve kodeken, distribueres under Apache 2.0-lisensen. Andre forbedringer inkluderer muligheten til å bruke Bazel-byggesystemet med GCC-kompilatoren og bruken av denne pakken som standard i Linux i stedet for Bazel+Clang.

La oss huske at når det gjelder kvaliteten på overførte taledata ved lave hastigheter, er Lyra betydelig overlegen tradisjonelle kodeker som bruker digitale signalbehandlingsmetoder. For å oppnå høykvalitets taleoverføring under forhold med en begrenset mengde overført informasjon, i tillegg til konvensjonelle metoder for lydkomprimering og signalkonvertering, bruker Lyra en talemodell basert på et maskinlæringssystem, som lar deg gjenskape den manglende informasjonen basert på typiske taleegenskaper. Modellen som ble brukt til å generere lyden ble trent ved å bruke flere tusen timer med stemmeopptak på mer enn 70 språk. Ytelsen til den foreslåtte implementeringen er tilstrekkelig for sanntids talekoding og -dekoding på smarttelefoner i mellompris, med en signaloverføringsforsinkelse på 90 millisekunder.

Kilde: opennet.ru

Legg til en kommentar