Mozilla konuşma tanıma motoru DeepSpeech 0.6'yı tanıttı

tanıtıldı Mozilla tarafından geliştirilen konuşma tanıma motorunun piyasaya sürülmesi Derin Konuşma 0.6Aynı isimli konuşma tanıma mimarisini uygulayan, önerilen Baidu'dan araştırmacılar tarafından. Uygulama, TensorFlow makine öğrenimi platformu kullanılarak Python'da yazılmıştır ve tarafından dağıtıldı ücretsiz MPL 2.0 lisansı kapsamında. Linux, Android, macOS ve Windows üzerinde çalışmayı destekler. Performans, motoru LePotato, Raspberry Pi 3 ve Raspberry Pi 4 kartlarında kullanmak için yeterlidir.

Ayrıca sete dahil teklif edilir eğitilmiş modeller, Örnekler komut satırından ses dosyaları ve tanıma araçları. Konuşma tanıma fonksiyonunu programlarınıza entegre etmek için Python, NodeJS, C++ ve .NET için kullanıma hazır modüller sunulmaktadır (üçüncü taraf geliştiriciler için ayrı ayrı modüller hazırlanmıştır). Rust и Go). Bitmiş model yalnızca İngilizce için sağlanır, ancak diğer diller için de ekli talimatlar kullanarak sistemi kendiniz eğitebilirsiniz. ses verileri, Common Voice projesi tarafından toplandı.

DeepSpeech, geleneksel sistemlerden çok daha basittir ve aynı zamanda yabancı gürültünün varlığında daha yüksek kalitede tanıma sağlar. Geleneksel akustik modelleri ve ses birimleri kavramını atlar; bunun yerine gürültü, yankı ve konuşma özellikleri gibi çeşitli anormallikleri modellemek için ayrı bileşenler geliştirme ihtiyacını ortadan kaldıran, yüksek düzeyde optimize edilmiş sinir ağı tabanlı bir makine öğrenme sistemi kullanır.

Bu yaklaşımın dezavantajı, bir sinir ağının yüksek kalitede tanınmasını ve eğitilmesini sağlamak için DeepSpeech motorunun, gerçek koşullarda farklı sesler tarafından ve doğal gürültünün varlığında dikte edilen büyük miktarda heterojen veriye ihtiyaç duymasıdır.
Mozilla'da oluşturulan bir proje bu tür verileri toplar. Ortak ses780 saatlik doğrulanmış bir veri kümesi sağlayan İngilizce, 325 Almanca, 173 Fransızca ve 27 saat Rusça.

Common Voice projesinin nihai hedefi, insan konuşmasının tipik ifadelerinin çeşitli telaffuzlarının 10 bin saatlik kaydını biriktirmektir; bu, tanımada kabul edilebilir düzeyde hata elde edilmesini sağlayacaktır. Mevcut haliyle, proje katılımcıları halihazırda toplam 4.3 bin saat dikte etmiş olup bunun 3.5 bini test edilmiştir. DeepSpeech için son İngilizce dil modeli eğitilirken, LibriSpeech, Fisher ve Switchboard projelerinden elde edilen verileri kapsayan Common Voice'a ek olarak 3816 saatlik konuşma kullanıldı ve ayrıca yaklaşık 1700 saatlik metne dönüştürülmüş radyo programı kayıtları da dahil.

İndirilmeye sunulan hazır İngilizce dil modeli kullanıldığında, test seti ile değerlendirildiğinde DeepSpeech'teki tanıma hata oranı %7.5'tir. librikonuşma. Karşılaştırma için, insan tanımadaki hata oranı tahmini % 5.83 içinde.

DeepSpeech iki alt sistemden oluşur: akustik model ve kod çözücü. Akustik model, giriş sesinde belirli karakterlerin bulunma olasılığını hesaplamak için derin makine öğrenimi yöntemlerini kullanır. Kod çözücü, karakter olasılık verilerini bir metin temsiline dönüştürmek için bir ışın arama algoritması kullanır.

Ana yenilikler DeepSpeech 0.6 (0.6 dalı önceki sürümlerle uyumlu değildir ve kod ve model güncellemeleri gerektirir):

  • Daha yüksek tepki süresi sağlayan ve işlenen ses verilerinin boyutundan bağımsız olan yeni bir akış kod çözücü önerilmiştir. Sonuç olarak DeepSpeech'in yeni sürümü, tanıma gecikmesini 260 ms'ye düşürmeyi başardı; bu, öncekine göre %73 daha hızlıdır ve DeepSpeech'in anında konuşma tanıma çözümlerinde kullanılmasına olanak tanır.
  • API'de değişiklikler yapıldı ve işlev adlarının birleştirilmesine yönelik çalışmalar yapıldı. Senkronizasyonla ilgili ek meta veriler elde etmek için işlevler eklenmiştir; bu, yalnızca çıktı olarak bir metin temsilinin elde edilmesine değil, aynı zamanda bireysel karakterlerin ve cümlelerin ses akışındaki bir konuma bağlanmasının izlenmesine de olanak tanır.
  • Eğitim modülleri araç setine kütüphaneyi kullanma desteği eklendi CuDNN model eğitimi performansında önemli (yaklaşık iki kat) bir artış elde etmeyi mümkün kılan, ancak kodda önceden hazırlanmış modellerle uyumluluğu ihlal eden değişiklikler yapılmasını gerektiren tekrarlayan sinir ağları (RNN) ile çalışmayı optimize etmek.
  • Minimum TensorFlow sürüm gereksinimleri 1.13.1'den 1.14.0'a yükseltildi. DeepSpeech paketinin boyutunu 98 MB'tan 3.7 MB'a düşüren TensorFlow Lite'ın hafif sürümü için destek eklendi. Gömülü ve mobil cihazlarda kullanım için modelle birlikte paketlenmiş dosyanın boyutu da 188 MB'tan 47 MB'a düşürülmüştür (model eğitildikten sonra sıkıştırma için niceleme yöntemi kullanılır).
  • Dil modeli, dosyaların yüklendiğinde belleğe eşlenmesine olanak tanıyan farklı bir veri yapısı formatına çevrilmiştir. Eski formata yönelik destek durduruldu.
  • Dil modeli içeren bir dosyayı yükleme modu değiştirildi; bu, bellek tüketimini azalttı ve modeli oluşturduktan sonra ilk isteği işlerken gecikmeleri azalttı. DeepSpeech, çalışma sırasında artık 22 kat daha az bellek tüketiyor ve 500 kat daha hızlı başlıyor.

    Mozilla konuşma tanıma motoru DeepSpeech 0.6'yı tanıttı

  • Dil modelinde nadir kelimeler filtrelendi. Modeli eğitmek için kullanılan metinde bulunan en popüler kelimelerin toplam kelime sayısı 500 bine düşürüldü. Temizleme, tanıma hatası oranında neredeyse hiçbir etki olmaksızın dil modelinin boyutunun 1800 MB'tan 900 MB'a düşürülmesini mümkün kıldı.
  • Çeşitli için destek eklendi teknisyen Eğitimde kullanılan ses verilerinin ek varyasyonlarını (büyütme) oluşturmak (örneğin, bir dizi seçeneğe bozulma veya gürültü eklemek).
  • .NET platformunu temel alan uygulamalarla entegrasyon için bağlamaları olan bir kitaplık eklendi.
  • Dokümantasyon yeniden düzenlendi ve artık ayrı bir web sitesinde toplandı. deepspeech.readthedocs.io.

Kaynak: opennet.ru

Yorum ekle