Το Facebook δημοσιεύει κωδικοποιητή ήχου EnCodec χρησιμοποιώντας μηχανική εκμάθηση

Το Meta/Facebook (απαγορευμένο στη Ρωσική Ομοσπονδία) παρουσίασε έναν νέο κωδικοποιητή ήχου, τον EnCodec, ο οποίος χρησιμοποιεί μεθόδους μηχανικής εκμάθησης για να αυξήσει τον λόγο συμπίεσης χωρίς απώλεια ποιότητας. Ο κωδικοποιητής μπορεί να χρησιμοποιηθεί τόσο για ροή ήχου σε πραγματικό χρόνο όσο και για κωδικοποίηση για μεταγενέστερη αποθήκευση σε αρχεία. Η υλοποίηση αναφοράς EnCodec είναι γραμμένη σε Python χρησιμοποιώντας το πλαίσιο PyTorch και έχει άδεια χρήσης βάσει άδειας CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) μόνο για μη εμπορική χρήση.

Δύο έτοιμα μοντέλα προσφέρονται για λήψη:

  • Ένα μοντέλο αιτιολογίας που χρησιμοποιεί ρυθμό δειγματοληψίας 24 kHz, υποστηρίζει μόνο μονοφωνικό ήχο και εκπαιδευμένο σε διαφορετικά δεδομένα ήχου (κατάλληλο για κωδικοποίηση ομιλίας). Το μοντέλο μπορεί να χρησιμοποιηθεί για τη συσκευασία δεδομένων ήχου για μετάδοση σε ρυθμούς bit 1.5, 3, 6, 12 και 24 kbps.
  • Ένα μοντέλο χωρίς αιτία που χρησιμοποιεί ρυθμό δειγματοληψίας 48 kHz, υποστηρίζει στερεοφωνικό ήχο και εκπαιδευμένο μόνο σε μουσική. Το μοντέλο υποστηρίζει bitrates 3, 6, 12 και 24 kbps.

Για κάθε μοντέλο, έχει προετοιμαστεί ένα πρόσθετο μοντέλο γλώσσας, το οποίο σας επιτρέπει να επιτύχετε σημαντική αύξηση του λόγου συμπίεσης (έως και 40%) χωρίς απώλεια ποιότητας. Σε αντίθεση με προηγούμενα έργα που χρησιμοποιούν μεθόδους μηχανικής εκμάθησης για συμπίεση ήχου, το EnCodec μπορεί να χρησιμοποιηθεί όχι μόνο για τη συσκευασία ομιλίας, αλλά και για τη συμπίεση μουσικής με ρυθμό δειγματοληψίας 48 kHz, που αντιστοιχεί στο επίπεδο των CD ήχου. Σύμφωνα με τους προγραμματιστές του νέου κωδικοποιητή, κατά τη μετάδοση με ρυθμό μετάδοσης bit 64 kbps σε σύγκριση με τη μορφή MP3, κατάφεραν να αυξήσουν τον βαθμό συμπίεσης ήχου κατά περίπου δέκα φορές διατηρώντας το ίδιο επίπεδο ποιότητας (για παράδειγμα, κατά τη χρήση MP3, απαιτείται εύρος ζώνης 64 kbps, για μετάδοση με αυτό η ίδια ποιότητα στο EnCodec είναι αρκετά 6 kbps).

Η αρχιτεκτονική του κωδικοποιητή είναι χτισμένη σε ένα νευρωνικό δίκτυο με αρχιτεκτονική «μετασχηματιστή» και βασίζεται σε τέσσερις συνδέσμους: κωδικοποιητής, κβαντιστής, αποκωδικοποιητής και διαχωριστής. Ο κωδικοποιητής εξάγει τις παραμέτρους των φωνητικών δεδομένων και μετατρέπει τη συσκευασμένη ροή σε χαμηλότερο ρυθμό καρέ. Ο κβαντιστής (RVQ, Residual Vector Quantizer) μετατρέπει την έξοδο ροής από τον κωδικοποιητή σε σύνολα πακέτων, συμπιέζοντας πληροφορίες βάσει του επιλεγμένου bitrate. Η έξοδος του κβαντιστή είναι μια συμπιεσμένη αναπαράσταση των δεδομένων, κατάλληλη για μετάδοση μέσω δικτύου ή αποθήκευση στο δίσκο.

Ο αποκωδικοποιητής αποκωδικοποιεί τη συμπιεσμένη αναπαράσταση των δεδομένων και αναδομεί το αρχικό ηχητικό κύμα. Ο διαχωριστής βελτιώνει την ποιότητα των παραγόμενων δειγμάτων, λαμβάνοντας υπόψη το μοντέλο της ανθρώπινης ακουστικής αντίληψης. Ανεξάρτητα από το επίπεδο ποιότητας και το ρυθμό μετάδοσης bit, τα μοντέλα που χρησιμοποιούνται για κωδικοποίηση και αποκωδικοποίηση διακρίνονται από μάλλον μέτριες απαιτήσεις πόρων (οι υπολογισμοί που είναι απαραίτητοι για λειτουργία σε πραγματικό χρόνο πραγματοποιούνται σε έναν μόνο πυρήνα CPU).

Το Facebook δημοσιεύει κωδικοποιητή ήχου EnCodec χρησιμοποιώντας μηχανική εκμάθηση


Πηγή: opennet.ru

Προσθέστε ένα σχόλιο