RHVoice 1.6.0 talgervil gefinn út

Opna talgervlakerfið RHVoice 1.6.0 var gefið út, upphaflega þróað til að veita hágæða stuðning fyrir rússnesku, en síðan aðlagað fyrir önnur tungumál, þar á meðal ensku, portúgölsku, úkraínsku, kirgiska, tatarísku og georgísku. Kóðinn er skrifaður í C++ og dreift undir LGPL 2.1 leyfinu. Styður vinnu á GNU/Linux, Windows og Android. Forritið er samhæft við venjuleg TTS (text-til-tal) viðmót til að breyta texta í tal: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) og Android Text-To-Speech API, en einnig er hægt að nota það í NVDA skjálesari. Höfundur og aðalframleiðandi RHVoice er Olga Yakovleva, sem þróar verkefnið þrátt fyrir að vera algjörlega blind.

Nýja útgáfan bætir við 5 nýjum raddvalkostum fyrir rússneskt tal. Stuðningur á albönsku hefur verið innleiddur. Orðabókin fyrir úkraínska hefur verið uppfærð. Stuðningur við raddbeitingu emoji-persóna hefur verið aukinn. Unnið hefur verið að því að útrýma villum í forritinu fyrir Android pallinn, innflutningur sérsniðinna orðabóka hefur verið einfaldaður og bætt við stuðningi við Android 11. Nýjum stillingum og virkni hefur verið bætt við vélarkjarna, þar á meðal g2p. case, word_break og stuðningur við jöfnunarsíur.

Við skulum muna að RHVoice notar þróun HTS verkefnisins (HMM/DNN-based Speech Synthesis System) og parametric synthesis aðferð með tölfræðilegum líkönum (Statistical Parametric Synthesis byggt á HMM - Hidden Markov Model). Kosturinn við tölfræðilíkanið er lágur kostnaður og krefjandi örgjörvaafl. Allar aðgerðir eru framkvæmdar á staðnum á kerfi notandans. Þrjú stig talgæða eru studd (því minni sem gæðin eru, því meiri frammistaða og því styttri viðbragðstími).

Gallinn við tölfræðilíkanið er tiltölulega lítil gæði framburðar, sem nær ekki því stigi hljóðgervla sem búa til tal byggt á samsetningu brota af náttúrulegu tali, en engu að síður er útkoman nokkuð læsileg og líkist því að senda upptöku úr hátalara . Til samanburðar má nefna að Silero verkefnið, sem býður upp á opna talgervil sem byggir á vélanámstækni og mengi líkana fyrir rússneska tungumálið, er betri í gæðum en RHVoice.

Það eru 13 raddvalkostir í boði fyrir rússnesku og 5 fyrir ensku. Raddirnar eru myndaðar út frá upptökum af náttúrulegu tali. Í stillingunum er hægt að breyta hraða, tónhæð og hljóðstyrk. Hægt er að nota Sonic bókasafnið til að breyta taktinum. Það er hægt að greina og skipta sjálfkrafa um tungumál byggt á greiningu á innsláttartextanum (til dæmis, fyrir orð og tilvitnanir á öðru tungumáli, er hægt að nota samrunalíkan sem er innfæddur í því tungumáli). Raddsnið eru studd, sem skilgreina samsetningar radda fyrir mismunandi tungumál.

Heimild: opennet.ru

Bæta við athugasemd