🥇OpenVINO ハッカソン: Raspberry Pi での音声と感情の認識

30月1日からXNUMX月XNUMX日までニジニ・ノヴゴロドで開催されました OpenVINOハッカソン。参加者は、インテル OpenVINO ツールキットを使用して製品ソリューションのプロトタイプを作成するように求められました。主催者は、タスクを選択する際の参考となるおおよそのトピックのリストを提案しましたが、最終決定はチームに委ねられました。また、製品に含まれていないモデルの使用も奨励されました。

この記事では、最終的に XNUMX 位を獲得した製品のプロトタイプをどのように作成したかについて説明します。

ハッカソンには 10 チーム以上が参加しました。他の地域から来た人もいるのは嬉しいですね。ハッカソンの会場は「ポチェインのクレムリンスキー」複合施設で、内部にはニジニ・ノヴゴロドの古代の写真が取り巻きで飾られていました。 (現時点ではインテルの本社はニジニ・ノヴゴロドにあることを思い出してください)。参加者にはコードを書く時間が 26 時間与えられ、最後に解決策を発表する必要がありました。もう XNUMX つの利点は、計画されたすべてが実際に実装され、プレゼンテーションにアイデアが残されていないことを確認するためのデモセッションの存在です。グッズ、スナック、食べ物、何でもありました！

さらに、Intel はオプションでカメラ、Raspberry PI、Neural Compute Stick 2 を提供しました。

タスク選択

フリーフォームハッカソンの準備で最も難しい部分の XNUMX つは、課題を選択することです。発表ではこれは大歓迎だということだったので、私たちはすぐに製品にまだないものを考え出すことにしました。

分析したところモデル現在のリリースの製品に含まれているこれらのソフトウェアのほとんどは、コンピュータビジョンのさまざまな問題を解決するという結論に達しました。さらに、コンピュータービジョンの分野で、OpenVINO を使用して解決できない問題を思いつくことは非常に困難であり、たとえ発明できたとしても、事前にトレーニングされたモデルをパブリックドメインで見つけることは困難です。私たちは、音声処理と分析という別の方向に進むことにしました。音声から感情を認識するという興味深いタスクを考えてみましょう。 OpenVINO には、顔に基づいて人の感情を判断するモデルがすでにあると言わなければなりませんが、次のとおりです。

理論的には、音声と画像の両方に作用する組み合わせアルゴリズムを作成することが可能であり、これにより精度が向上するはずです。
通常、カメラの視野角は狭く、広いエリアをカバーするには複数のカメラが必要ですが、音声にはそのような制限がありません。

アイデアを発展させてみましょう。小売部門のアイデアを基礎として考えてみましょう。店舗のレジで顧客満足度を測定できます。顧客の XNUMX 人がサービスに不満を抱き、口調を上げ始めた場合は、すぐに管理者に電話して助けを求めることができます。
この場合、人間の音声認識を追加する必要があります。これにより、店舗の従業員と顧客を区別し、各個人に分析を提供できるようになります。そうですね、それに加えて、店員自身の行動を分析したり、チーム内の雰囲気を評価したりすることも可能になります、良さそうですね！

ソリューションの要件を次のように定式化します。

ターゲットデバイスのサイズが小さい
リアルタイム操作
低価格
簡単な拡張性

結果として、Raspberry Pi 3 c をターゲットデバイスとして選択します。インテル NCS 2.

ここで、NCS の XNUMX つの重要な機能に注意することが重要です。NCS は標準の CNN アーキテクチャで最適に動作しますが、カスタムレイヤを含むモデルを実行する必要がある場合は、低レベルの最適化を期待してください。

やるべきことは XNUMX つだけです。マイクを用意する必要があります。通常の USB マイクでも十分ですが、RPI と組み合わせると見栄えがよくありません。しかし、ここでも解決策は文字通り「近くにある」のです。音声を録音するには、キットのボイスボンネットボードを使用することにします Google AIY 音声キット、そこには有線ステレオマイクがあります。

Raspbian をダウンロードする AIY プロジェクトリポジトリそれをフラッシュドライブにアップロードし、次のコマンドを使用してマイクが機能することをテストします (音声を 5 秒間録音し、ファイルに保存します)。

arecord -d 5 -r 16000 test.wav

マイクが非常に敏感で、ノイズをよく拾うことにすぐに注意してください。これを修正するには、alsamixer に移動し、Capture devices を選択して、入力信号レベルを 50 ～ 60% に下げましょう。

本体をヤスリで修正するとすべてがフィットし、蓋で閉じることもできます

インジケーターボタンの追加

AIY Voice Kit を分解していると、RGB ボタンがあることに気づきました。そのバックライトはソフトウェアで制御できます。「Google AIY Led」を検索すると、ドキュメントが見つかります。 https://aiyprojects.readthedocs.io/en/latest/aiy.leds.html
このボタンを使用して、認識された感情を表示してみてはいかがでしょうか。クラスは 7 つしかなく、ボタンには 8 色があり、十分です。

GPIO 経由でボタンを Voice Bonnet に接続し、必要なライブラリをロードします (ライブラリは AIY プロジェクトの配布キットにすでにインストールされています)。

from aiy.leds import Leds, Color
from aiy.leds import RgbLeds

各感情が RGB タプルの形式で対応する色と aiy.leds.Leds クラスのオブジェクトを持つ辞書を作成しましょう。これを通じて色を更新します。

led_dict = {'neutral': (255, 255, 255), 'happy': (0, 255, 0), 'sad': (0, 255, 255), 'angry': (255, 0, 0), 'fearful': (0, 0, 0), 'disgusted':  (255, 0, 255), 'surprised':  (255, 255, 0)} 
leds = Leds()

そして最後に、感情が新たに予測されるたびに、それに応じて (キーごとに) ボタンの色を更新します。

leds.update(Leds.rgb_on(led_dict.get(classes[prediction])))

ボタン、燃えろ！

音声を使った作業

pyaudio を使用してマイクからのストリームをキャプチャし、webrtcvad を使用してノイズをフィルターし、音声を検出します。さらに、音声の抜粋を非同期的に追加および削除するキューを作成します。

webrtcvad には提供されるフラグメントのサイズに制限があり、10/20/30 ミリ秒に等しい必要があり、感情を認識するためのモデルのトレーニング (後で学習します) は 48kHz データセットで実行されたため、次のようになります。サイズ 48000×20ms/1000×1(モノラル)=960 バイトのチャンクをキャプチャします。 Webrtcvad は、これらの各チャンクに対して True/False を返します。これは、チャンク内の投票の有無に対応します。

次のロジックを実装してみましょう。

投票があるチャンクをリストに追加します。投票がない場合は、空のチャンクのカウンターをインクリメントします。
空のチャンクのカウンターが >=30 (600 ミリ秒) の場合は、蓄積されたチャンクのリストのサイズを確認します。250 を超える場合は、それをキューに追加します。そうでない場合は、その長さが考慮されます。レコードの内容は、発言者を識別するためにモデルにフィードするには十分ではありません。
空のチャンクのカウンターがまだ 30 未満で、蓄積されたチャンクのリストのサイズが 300 を超えている場合は、より正確な予測を行うためにフラグメントをキューに追加します。（感情は時間の経過とともに変化するものなので）

 def to_queue(frames):
    d = np.frombuffer(b''.join(frames), dtype=np.int16)
    return d

framesQueue = queue.Queue()
def framesThreadBody():
    CHUNK = 960
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 48000

    p = pyaudio.PyAudio()
    vad = webrtcvad.Vad()
    vad.set_mode(2)
    stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)
    false_counter = 0
    audio_frame = []
    while process:
        data = stream.read(CHUNK)
        if not vad.is_speech(data, RATE):
            false_counter += 1
            if false_counter >= 30:
                if len(audio_frame) > 250:              
                    framesQueue.put(to_queue(audio_frame,timestamp_start))
                    audio_frame = []
                    false_counter = 0

        if vad.is_speech(data, RATE):
            false_counter = 0
            audio_frame.append(data)
            if len(audio_frame) > 300:                
                    framesQueue.put(to_queue(audio_frame,timestamp_start))
                    audio_frame = []

パブリックドメインで事前トレーニングされたモデルを探したり、github や Google にアクセスしたりする時期が来ましたが、使用するアーキテクチャには制限があることに注意してください。これは、入力データでモデルをテストし、さらに OpenVINO の内部形式である IR (中間表現) に変換する必要があるため、かなり難しい部分です。私たちは Github から約 5 ～ 7 の異なるソリューションを試しましたが、感情を認識するモデルがすぐに機能したとしても、音声認識ではより複雑なアーキテクチャが使用されているため、より長く待つ必要がありました。

私たちは次のことに重点を置いています。

声から伝わる感情 - https://github.com/alexmuhr/Voice_Emotion
これは次の原則に従って機能します。オーディオは特定のサイズのパッセージに分割され、これらのパッセージごとに選択されます。 MFCC そしてそれらを入力として CNN に送信します
音声認識 - https://github.com/linhdvu14/vggvox-speaker-identification
ここでは、MFCC の代わりにスペクトログラムを使用し、FFT 後に信号を CNN に送り、出力で音声のベクトル表現を取得します。

次に、理論から始めてモデルの変換について説明します。 OpenVINO にはいくつかのモジュールが含まれています。

Open Model Zoo、使用および製品に含まれるモデル
Model Optimzer のおかげで、モデルをさまざまなフレームワーク形式 (Tensorflow、ONNX など) から中間表現形式に変換できます。これを使用してさらに作業を進めます。
推論エンジンを使用すると、Intel プロセッサ、Myriad チップ、Neural Compute Stick アクセラレータ上で IR 形式のモデルを実行できます。
OpenCV の最も効率的なバージョン (推論エンジンのサポート付き)
IR 形式の各モデルは、.xml と .bin の XNUMX つのファイルで記述されます。
モデルは、次のように Model Optimizer を介して IR 形式に変換されます。
```
python /opt/intel/openvino/deployment_tools/model_optimizer/mo_tf.py --input_model speaker.hdf5.pb --data_type=FP16 --input_shape [1,512,1000,1]
```
--data_type モデルが動作するデータ形式を選択できます。 FP32、FP16、INT8がサポートされています。最適なデータ型を選択すると、パフォーマンスが大幅に向上します。
--input_shape 入力データの次元を示します。動的に変更する機能は C++ API にあるようですが、そこまでは掘り下げず、単にモデルの XNUMX つに対して修正しただけです。
次に、変換済みのモデルを IR 形式で DNN モジュール経由で OpenCV にロードし、転送してみます。
```
import cv2 as cv
emotionsNet = cv.dnn.readNet('emotions_model.bin',
                          'emotions_model.xml')
emotionsNet.setPreferableTarget(cv.dnn.DNN_TARGET_MYRIAD)
```
この場合の最後の行では、計算を Neural Compute Stick にリダイレクトできます。基本的な計算はプロセッサー上で実行されますが、Raspberry Pi の場合、これは機能せず、スティックが必要になります。

次に、ロジックは次のとおりです。オーディオを特定のサイズのウィンドウ (ここでは 0.4 秒) に分割し、これらの各ウィンドウを MFCC に変換して、グリッドにフィードします。
```
emotionsNet.setInput(MFCC_from_window)
result = emotionsNet.forward()
```
次に、すべてのウィンドウに最も一般的なクラスを考えてみましょう。シンプルな解決策ですが、ハッカソンの場合は、時間があれば、あまり難解なことを考える必要はありません。やるべきことはまだたくさんあるので、次に進みましょう。音声認識を扱います。事前に録音された音声のスペクトログラムを保存する、ある種のデータベースを作成する必要があります。残り時間が少ないので、できる限りこの問題を解決していきます。

つまり、音声の抜粋を録音するためのスクリプトを作成します (上記と同じように機能しますが、キーボードから中断された場合にのみ音声がファイルに保存されます)。

やってみよう：
```
python3 voice_db/record_voice.py test.wav
```
数人の声を録音します（私たちの場合はチームメンバーXNUMX人）
次に、録音された音声ごとに高速フーリエ変換を実行し、スペクトログラムを取得して、それを numpy 配列 (.npy) として保存します。
```
for file in glob.glob("voice_db/*.wav"):
        spec = get_fft_spectrum(file)
        np.save(file[:-4] + '.npy', spec)
```
詳細はファイルにあります create_base.py
その結果、メインスクリプトを実行すると、最初に次のスペクトログラムから埋め込みが取得されます。
```
for file in glob.glob("voice_db/*.npy"):
    spec = np.load(file)
    spec = spec.astype('float32')
    spec_reshaped = spec.reshape(1, 1, spec.shape[0], spec.shape[1])
    srNet.setInput(spec_reshaped)
    pred = srNet.forward()
    emb = np.squeeze(pred)
```
音声セグメントから埋め込みを受信した後、パッセージからデータベース内のすべての音声までのコサイン距離 (小さいほど可能性が高くなります) を取得することによって、それが誰に属しているかを判断できます。デモでは、しきい値を設定します。 0.3まで）：
```
        dist_list = cdist(emb, enroll_embs, metric="cosine")
        distances = pd.DataFrame(dist_list, columns = df.speaker)
```
最後に、推論速度が速く、さらに 1 ～ 2 つのモデルを追加できることに注目したいと思います (7 秒の長さのサンプルの場合、推論に 2.5 時間がかかりました)。新しいモデルを追加する時間がなくなり、Web アプリケーションのプロトタイプを作成することに集中しました。

ウェブアプリケーション

重要な点: 自宅からルーターを持って行き、ローカルネットワークをセットアップします。これは、ネットワーク経由でデバイスとラップトップを接続するのに役立ちます。

バックエンドは、WebSocket テクノロジー (http over tcp プロトコル) に基づいた、フロントと Raspberry Pi 間のエンドツーエンドのメッセージチャネルです。

最初の段階は、ラズベリーから処理された情報、つまり json にパックされた予測子を受け取ることです。これらの情報は、その期間のユーザーの感情的背景に関する統計を生成できるように、旅行の途中でデータベースに保存されます。このパケットはその後、サブスクリプションを使用して WebSocket エンドポイントからパケットを受信するフロントエンドに送信されます。バックエンドメカニズム全体は golang 言語で構築されており、ゴルーチンが適切に処理する非同期タスクに適しているため、golang 言語が選択されました。
エンドポイントにアクセスすると、ユーザーが登録されて構造に入り、そのメッセージが受信されます。ユーザーとメッセージの両方が共通のハブに入力され、そこからメッセージがさらに (サブスクライブされたフロントに) 送信されます。ユーザーが接続 (ラズベリーまたはフロント) を閉じると、そのサブスクリプションはキャンセルされ、ユーザーはハブから削除されます。ハブ。

後ろからのご連絡お待ちしております

フロントエンドは、開発プロセスを高速化し、簡素化するために React ライブラリを使用して JavaScript で記述された Web アプリケーションです。このアプリケーションの目的は、バックエンド側で実行されるアルゴリズムを使用して取得されたデータを Raspberry Pi で直接視覚化することです。このページには、react-router を使用してセクションルーティングが実装されていますが、重要なメインページはメインページであり、WebSocket テクノロジを使用してサーバーからデータの連続ストリームをリアルタイムで受信します。 Raspberry Pi は音声を検出し、登録されたデータベースからその音声が特定の人物のものであるかどうかを判断し、確率リストをクライアントに送信します。クライアントは、最新の関連データを表示し、マイクに向かって話した可能性が最も高い人のアバターと、その人が言葉を発音したときの感情を表示します。

最新の予測を掲載したホームページ

まとめ

計画どおりにすべてを完了することはできませんでした。単に時間がなかったので、デモではすべてが機能することが主な望みでした。プレゼンテーションでは、すべてがどのように機能するか、どのようなモデルを採用したか、どのような問題に遭遇したかについて話しました。次はデモ部分で、専門家がランダムな順序で部屋を歩き回り、各チームに近づいて実際に動作するプロトタイプを確認しました。彼らも私たちに質問をし、全員が自分の担当に答え、ウェブをラップトップに残し、すべてが期待どおりに機能しました。

私たちのソリューションの総コストは 150 ドルでした。
- ラズベリーパイ 3 ~ $35
- Google AIY Voice Bonnet (リスピーカー料金がかかります) ~ 15$
- インテル NCS 2 ~ 100$
改善方法：
- クライアントからの登録を使用 - ランダムに生成されたテキストの読み取りを依頼します
- さらにいくつかのモデルを追加: 音声で性別と年齢を判断できます
- 同時に鳴る音声を分離する（ダイアライゼーション）
リポジトリ: https://github.com/vladimirwest/OpenEMO

疲れていますが、私たちは幸せです

最後に、主催者と参加者の皆様に感謝の意を表したいと思います。他のチームのプロジェクトの中でも、無料駐車スペースを監視するソリューションが個人的に気に入りました。私たちにとって、それは製品と開発に没頭する非常に素晴らしい経験でした。 AIを含めた興味深いイベントが地方でどんどん開催されることを期待しています。

出所： habr.com

OpenVINO ハカソン: Raspberry Pi での音声と感情の認識

タスク選択

インジケーターボタンの追加

音声を使った作業

ウェブアプリケーション

まとめ

コメントを追加します返信をキャンセル

OpenVINO ハカソン: Raspberry Pi での音声と感情の認識

タスク選択

インジケーターボタンの追加

音声を使った作業

ウェブアプリケーション

まとめ

コメントを追加します 返信をキャンセル

コメントを追加します返信をキャンセル