Η Google παρουσίασε τον κωδικοποιητή ήχου Lyra V2, ο οποίος χρησιμοποιεί μεθόδους μηχανικής μάθησης για την επίτευξη μέγιστης ποιότητας ομιλίας σε πολύ αργά κανάλια επικοινωνίας. Η νέα έκδοση διαθέτει μια νέα αρχιτεκτονική νευρωνικού δικτύου, υποστήριξη για πρόσθετες πλατφόρμες, διευρυμένες δυνατότητες ελέγχου ρυθμού μετάδοσης bit, αυξημένη απόδοση και υψηλότερη ποιότητα ήχου. Η υλοποίηση αναφοράς του κώδικα είναι γραμμένη σε C++ και διανέμεται με την άδεια Apache 2.0.
Όσον αφορά την ποιότητα των μεταδιδόμενων φωνητικών δεδομένων σε χαμηλές ταχύτητες, το Lyra υπερέχει σημαντικά από τους παραδοσιακούς κωδικοποιητές που χρησιμοποιούν μεθόδους επεξεργασίας ψηφιακών σημάτων. Για την επίτευξη υψηλής ποιότητας μετάδοσης φωνής σε συνθήκες περιορισμένου όγκου μεταδιδόμενων πληροφοριών, εκτός από τις συμβατικές μεθόδους συμπίεσης ήχου και μετατροπής σήματος, η Lyra χρησιμοποιεί ένα μοντέλο ομιλίας που βασίζεται σε σύστημα μηχανικής εκμάθησης, το οποίο σας επιτρέπει να αναδημιουργήσετε τις πληροφορίες που λείπουν με βάση τυπικά χαρακτηριστικά ομιλίας.
Ο κωδικοποιητής περιλαμβάνει έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο αλγόριθμος του κωδικοποιητή περιορίζεται στην εξαγωγή παραμέτρων φωνητικών δεδομένων κάθε 20 χιλιοστά του δευτερολέπτου, στη συμπίεσή τους και στη μετάδοσή τους στον παραλήπτη μέσω του δικτύου με ρυθμό μετάδοσης bit από 3.2 kbps έως 9.2 kbps. Από την πλευρά του παραλήπτη, ο αποκωδικοποιητής χρησιμοποιεί ένα γενετικό μοντέλο για να αναδημιουργήσει το αρχικό σήμα ομιλίας με βάση τις μεταδιδόμενες ηχητικές παραμέτρους, οι οποίες περιλαμβάνουν λογαριθμικά μελ-φασματογράμματα που λαμβάνουν υπόψη τα χαρακτηριστικά της ενέργειας ομιλίας σε διάφορες περιοχές συχνοτήτων και καταρτίζονται λαμβάνοντας υπόψη το μοντέλο της ανθρώπινης ακουστικής αντίληψης.
Το Lyra V2 χρησιμοποιεί ένα νέο γενετικό μοντέλο βασισμένο στο συνελικτικό νευρωνικό δίκτυο SoundStream, το οποίο έχει χαμηλές υπολογιστικές απαιτήσεις, επιτρέποντας την αποκωδικοποίηση σε πραγματικό χρόνο ακόμη και σε συστήματα χαμηλής ισχύος. Το μοντέλο που χρησιμοποιήθηκε για την παραγωγή ήχου εκπαιδεύτηκε χρησιμοποιώντας αρκετές χιλιάδες ώρες ηχογραφήσεων φωνής σε περισσότερες από 90 γλώσσες. Για την εκτέλεση του μοντέλου χρησιμοποιείται το TensorFlow Lite. Η απόδοση της προτεινόμενης υλοποίησης είναι επαρκής για την κωδικοποίηση και αποκωδικοποίηση ομιλίας σε smartphones χαμηλής τεχνολογίας.
Εκτός από τη χρήση διαφορετικού μοντέλου παραγωγής, η νέα έκδοση είναι επίσης αξιοσημείωτη για τη συμπερίληψη στην αρχιτεκτονική κωδικοποιητή συνδέσμων με τον κβαντιστή RVQ (Residual Vector Quantizer), ο οποίος εκτελείται από την πλευρά του αποστολέα πριν από τη μετάδοση δεδομένων και από την πλευρά του δέκτη μετά τη λήψη δεδομένων. Ο κβαντιστής μετατρέπει τις παραμέτρους που παράγονται από τον κωδικοποιητή σε σύνολα πακέτων, κωδικοποιώντας πληροφορίες σε σχέση με το επιλεγμένο bitrate. Για την παροχή διαφορετικών επιπέδων ποιότητας, παρέχονται κβαντιστές για τρεις ρυθμούς bit (3.2 kps, 6 kbps και 9.2 kbps), όσο υψηλότερος είναι ο ρυθμός μετάδοσης bit, τόσο καλύτερη είναι η ποιότητα, αλλά όσο υψηλότερες είναι οι απαιτήσεις εύρους ζώνης.

Η νέα αρχιτεκτονική έχει μειώσει τις καθυστερήσεις μετάδοσης σήματος από 100 σε 20 χιλιοστά του δευτερολέπτου. Για σύγκριση, ο κωδικοποιητής Opus για WebRTC έδειξε καθυστερήσεις 26.5 ms, 46.5 ms και 66.5 ms στους δοκιμασμένους ρυθμούς bit. Η απόδοση του κωδικοποιητή και του αποκωδικοποιητή έχει επίσης αυξηθεί σημαντικά - έως και 5 φορές πιο γρήγορα σε σύγκριση με την προηγούμενη έκδοση. Για παράδειγμα, στο smartphone Pixel 6 Pro, ο νέος κωδικοποιητής κωδικοποιεί και αποκωδικοποιεί ένα δείγμα 20 ms σε 0.57 ms, το οποίο είναι 35 φορές ταχύτερο από αυτό που απαιτείται για μετάδοση σε πραγματικό χρόνο.
Εκτός από την απόδοση, καταφέραμε να επιτύχουμε αύξηση στην ποιότητα της αποκατάστασης ήχου - σύμφωνα με την κλίμακα MUSHRA, η ποιότητα ομιλίας σε bitrates 3.2 kbps, 6 kbps και 9.2 kbps κατά τη χρήση του κωδικοποιητή Lyra V2 αντιστοιχεί σε bitrates 10 kbps, 13 kbps και 14 kbps κατά τη χρήση του κωδικοποιητή Opus.
Πηγή: opennet.ru
