Sieci neuronowe przeniosły jakość syntezy mowy rosyjskiej na nowy poziom

Grupa spółek CRT, część ekosystemu Sbierbanku, ogłosiła opracowanie zaawansowanej platformy syntezy mowy, która ma zapewnić płynne i ekspresyjne czytanie dowolnego tekstu.

Prezentowane rozwiązanie jest trzecią generacją systemu syntezy mowy. Wysokiej jakości sygnał audio jest generowany przez złożone modele sieci neuronowych. Twórcy twierdzą, że wynikiem tych algorytmów jest najbardziej realistyczna synteza mowy rosyjskojęzycznej.

Sieci neuronowe przeniosły jakość syntezy mowy rosyjskiej na nowy poziom

Platforma zawiera moduł do przewidywania akcentu w słowach, których jeszcze nie ma w podstawowym słowniku. Ponadto zapewniono automatyczną korektę typowych błędów ortograficznych. Dzięki głębokiej analizie językowej tekstu wymowa będzie odpowiadać standardom językowym nawet w skomplikowanych przypadkach.

Kolejną zaletą platformy jest to, że nie wymaga drogich serwery, wyposażonych w akceleratory GPU. Technologia ta może być wykorzystywana na dwa sposoby: za pośrednictwem usługi w chmurze lub poprzez integrację z rozwiązaniem niestandardowym.


Sieci neuronowe przeniosły jakość syntezy mowy rosyjskiej na nowy poziom

Możliwe obszary zastosowań tego rozwiązania obejmują chatboty i asystentów głosowych, usługi informacyjne i powiadamiające, usługi głosowe z natychmiastową syntezą dowolnego tekstu w trakcie rozmowy itp.

„W scenariuszach zautomatyzowanej komunikacji z klientem technologia ta pozwala na indywidualną interakcję z każdym abonentem, ponieważ nie ma stałych wiadomości, a dowolny tekst można syntetyzować w trakcie połączenia” – twierdzą twórcy.

Możesz wypróbować technologię tutaj



Źródło: 3dnews.ru
Kup niezawodny hosting dla stron z ochroną DDoS, serwery VPS VDS 🔥 Kup niezawodny hosting stron internetowych z ochroną DDoS, serwery VPS VDS | ProHoster