Yapay zeka alanında kamuya açık projeler geliştiren OpenAI projesi, Whisper konuşma tanıma sistemi ile ilgili gelişmeleri yayınladı. Sistemin İngilizce konuşma için insan tanımaya yakın düzeyde güvenilirlik ve otomatik tanıma doğruluğu sağladığı iddia ediliyor. PyTorch çerçevesine dayalı referans uygulamasının kodu ve kullanıma hazır, önceden eğitilmiş bir dizi model açıldı. Kod MIT lisansı altında açıktır.
Modeli eğitmek için farklı dilleri ve konu alanlarını kapsayan çeşitli koleksiyonlardan toplanan 680 bin saatlik konuşma verisi kullanıldı. Eğitimde yer alan konuşma verilerinin yaklaşık 1/3'ü İngilizce dışındaki dillerdedir. Önerilen sistem, aksanlı telaffuz, arka plan gürültüsü ve teknik jargon kullanımı gibi durumları doğru bir şekilde ele almaktadır. Sistem, konuşmayı metne dönüştürmenin yanı sıra, konuşmayı herhangi bir dilden İngilizceye çevirebilir ve ses akışında konuşmanın görünümünü algılayabilir.
Modeller iki temsil halinde oluşturulmuştur: İngilizce dili için bir model ve aynı zamanda Rusça, Ukraynaca ve Belarusça dillerini de destekleyen çok dilli bir model. Sırasıyla, her bir temsil, modelde kapsanan parametre sayısı ve boyutu bakımından farklılık gösteren 5 seçeneğe bölünmüştür. Boyut büyüdükçe, tanıma doğruluğu ve kalitesi de artar, ancak aynı zamanda GPU video belleğinin boyutuna yönelik gereksinimler de artar ve performans düşer. Örneğin, minimum seçenek 39 milyon parametre içerir ve 1 GB video belleği gerektirir; maksimum seçenek ise 1550 milyon parametre içerir ve 10 GB video belleği gerektirir. Minimum seçenek maksimumdan 32 kat daha hızlıdır.

Sistem, birbiriyle etkileşime giren bir kodlayıcı ve kod çözücü içeren Transformer sinir ağı mimarisini kullanıyor. Ses, log-Mel spektrogramına dönüştürülen ve kodlayıcıya gönderilen 30 saniyelik parçalara bölünür. Kodlayıcının çıktısı, özel belirteçlerle karıştırılmış bir metin temsilini tahmin eden kod çözücüye gönderilir; bu, genel bir modelde, dil tespiti, ifadelerin telaffuzunun kronolojisini hesaba katma, konuşmanın transkripsiyonu gibi sorunları çözmeye olanak tanır. farklı diller ve İngilizce'ye çeviri.
Kaynak: opennet.ru
