Sieci neuronowe wyniosły jakość syntezy mowy rosyjskiej na nowy poziom

Grupa firm MDG, będąca częścią ekosystemu Sbierbanku, ogłosiła rozwój zaawansowanej platformy syntezy mowy, która ma zapewnić płynne i wyraziste odczytanie dowolnego tekstu.

Prezentowane rozwiązanie jest trzecią generacją systemu syntezy mowy. Wysokiej jakości sygnały audio są generowane przez złożone modele sieci neuronowych. Twórcy twierdzą, że wynikiem tych algorytmów jest najbardziej realistyczna synteza mowy rosyjskojęzycznej.

Sieci neuronowe wyniosły jakość syntezy mowy rosyjskiej na nowy poziom

W platformie dostępny jest moduł umożliwiający przewidywanie akcentu w słowach, których nie ma jeszcze w słowniku bazowym. Ponadto dostępna jest automatyczna korekta typowych błędów ortograficznych. Dzięki głębokiej analizie językowej tekstu wymowa będzie zgodna z normami języka nawet w trudnych przypadkach.

Kolejną zaletą platformy jest to, że nie wymaga drogich serwerów wyposażonych w akceleratory GPU. Z technologii możesz korzystać na dwa sposoby: poprzez usługę w chmurze lub integrując ją z własnym rozwiązaniem.


Sieci neuronowe wyniosły jakość syntezy mowy rosyjskiej na nowy poziom

Wśród możliwych obszarów zastosowania rozwoju znajdują się chatboty i asystenci głosowi, usługi informacyjne i powiadamiające, usługi głosowe z natychmiastową syntezą dowolnego tekstu podczas połączenia itp.

„W zautomatyzowanych scenariuszach komunikacji z klientami technologia pozwala na indywidualną interakcję z każdym abonentem, ponieważ nie ma stałych wiadomości, a podczas rozmowy można syntetyzować dowolny tekst” – mówią twórcy.

Możesz wypróbować tę technologię tutaj



Źródło: 3dnews.ru

Dodaj komentarz