Mozilla induxit sermonis recognitionem machinam DeepSpeech 0.6

Subjuncta emissio sermonis agnitio engine evolvit Mozilla DeepSpeech 0.6quae efficit orationem recognitionem eiusdem nominis architecturae; propositus per inquisitores de Baidu. Exsecutio scripta est in Pythone utens machinae TensorFlow discendi suggestum et per distribui sub libero MPL 2.0 licentia. Sustinet opera in Linux, Android, macOS et in Fenestra. Solo satis est uti machina in LePotato, Raspberry Pi 3 et Raspberry Pi 4 tabulis.

Etiam in set offeruntur exempla docta; exempla scapis et instrumentis recognitionis ex mandato versus. Ut munus recognitionis integrandae in programs tuis, moduli ad usum parati Pythonis, NodeJS, C++ et .NET offeruntur (tertia-partium tincidunt separatim modulos paratos habent. rust ΠΈ Go). Exemplar perfecti tantum pro Anglis suppletur, sed pro aliis linguis attachiatus instructiones vos can instituendi systema te utens vox data, collecta voce communi.

DeepSpeech multo simplicior est quam systemata traditum et simul cognitio qualitatis altioris praebet coram strepitu extranei. Praetermittit exempla acoustica traditionalia et notionem phonematum, sed utens maximis retis-nuralibus substructis machina discendi ratio, quae removet necessitatem separatim explicandi ad formandas varias anomalias, sicut sonitus, resonans et loquelae lineamenta.

Inclinatio huius accessionis est quod ad agnitionem et conformationem retis neuralis consequendam, machina DeepSpeech magnam vim notitiarum heterogenearum requirit, in conditionibus realibus a diversis vocibus et coram strepitu naturali dictante.
Consilium in Mozilla creatum talem notitia colligit. communis Voicepraebens verificatur dataset cum DCCLXXX horis of " anglicus325 germanice, gallice 173 et 27 horae russice.

Ultimum propositum Communis Vocis propositi est X milia horarum recordationum variarum vocum typicarum locutionum humanarum locutionum cumulare, quae acceptabilem gradum errorum in agnitione assequendum permittunt. In forma currenti consilium participes iam summa 10 milia horarum dictaverunt, quorum 4.3 milia sunt probata. Cum exemplar linguae Anglicanae finalis pro DeepSpeech instituisset, 3.5 horae locutionis adhibitae sunt, praeter vocem Communis involucrum notitiarum e LibriSpeech, Fisher et Switchboard inceptis, ac etiam circa 3816 horas radiophonicae tabulae transscriptae.

Cum utens exemplar linguae Latinae promptae pro downloadioni oblatum est, agnitio errorum in DeepSpeech est 7.5% cum aestimatione certae tabulae. LibriSpeech. Ad comparationem, error rate agnitio humana censeo ad VIII%.

DeepSpeech duobus subsystematibus constat - exemplar acusticum et decoder. Exemplar acusticus machinae altae discendi modos adhibet ad calculandum verisimilitudo notarum quarundam in input sono existentes. Decoder utitur algorithmo radiophonico investigationis ad characterem probabilem datam in repraesentationem textus convertendi.

Main innovations DeepSpeech 0.6 (0.6 ramus cum solutionibus praecedentibus non patitur ac codicem ac exemplar updates requirit);

  • Novus decoder effusis proponitur quae altiorem alacritatem praebet et sine magnitudine notitiae auditionis processit. Quam ob rem, nova DeepSpeech versio in recentem recognitionem ad 260 ms, quod 73% velocius quam ante est, reducere curavit, et DeepSpeech permittit ut solutiones in musca cognoscendi in oratione adhibeantur.
  • Mutationes ad API factae sunt et opus factum est ut nomina functionis ad unitatem redigantur. Munera additae sunt ut metadata de synchronisation additional consequantur, sino te non solum textum repraesentationem recipere tamquam outputa, sed etiam ligationem personarum et sententiarum indagare ad positionem in soni soni.
  • Subsidium ad usura bibliothecam ad instrumenti instrumenti moduli rationem additum est CuDNN ad optimize opus recurrentibus reticulis neuralis (RNN), quae effecit ut notabile (circiter duplicem) crescat in forma exercitationis perficiendi, sed requiritur mutationes in codice qui compatibilitas violatae cum exemplaribus antea praeparatis.
  • Minimum TensorFlow versionis requisita ab 1.13.1 ad 1.14.0 excitata sunt. Adiecta subsidia ad editionem levem Litteris TensorFlow, quae magnitudinem sarcinae DeepSpeech ab 98 MB ad 3.7 MB minuit. Ad usus in infixa et mobilibus machinis, magnitudo fasciculi cum exemplaris referta redacta est etiam ab 188 MB ad 47 MB ​​(modus quantitatis pro compressione adhibita post exemplar institutum est).
  • Exemplar linguae latinae translatum est ad formas structurae alia notitiae quae permittit limas in memoriam deformes esse cum onerata. Sustentatio antiqua forma discontinuata est.
  • Modus onerandi limam cum exemplo linguae latinae mutatus est, qui memoriam consummationis redegit et moras redegit cum primam petitionem post exemplar creavisti. In operatione DeepSpeech nunc 22 vicibus minus memoria consumit et 500 temporibus velocius incipit.

    Mozilla induxit sermonis recognitionem machinam DeepSpeech 0.6

  • Rara verba in exemplar linguae percolantur. Numerus verborum ad 500 milia verborum popularium redactus est qui in textu usus est ad exemplar instituendi. Purgatio effecit ut ad quantitatem linguae exemplar ab 1800MB ad 900MB redigeretur, nullo fere effectu in agnitionis errore.
  • Addidit subsidium pro variis TECHNICUS additamenta variationum (augmentationum) notitiarum audio in exercitatione adhibitorum (exempli gratia, corruptelam vel strepitum addito statuto optionum).
  • Addidit bibliothecam ligaminibus ad integrationem cum applicationibus in .NET suggestu fundatis.
  • Documenta retractata est et nunc in loco separato colligitur. deepspeech.readthedocs.io.

Source: opennet.ru