🥇OpenVINO hakatons: balss un emociju atpazīšana uz Raspberry Pi

30. novembris - 1. decembris Ņižņijnovgorodā notika OpenVINO hakatons. Dalībniekiem tika lūgts izveidot produkta risinājuma prototipu, izmantojot Intel OpenVINO rīku komplektu. Organizatori piedāvāja sarakstu ar aptuvenām tēmām, pēc kurām varētu vadīties, izvēloties uzdevumu, taču gala lēmums palika komandām. Turklāt tika mudināts izmantot modeļus, kas nav iekļauti izstrādājumā.

Šajā rakstā mēs jums pastāstīsim par to, kā mēs izveidojām mūsu produkta prototipu, ar kuru mēs galu galā ieņēmām pirmo vietu.

Hakatonā piedalījās vairāk nekā 10 komandas. Patīkami, ka daži no viņiem nākuši no citiem novadiem. Hakatona norises vieta bija komplekss “Kremlsky on Pochain”, kurā iekšā svītā bija izkārtas senās Ņižņijnovgorodas fotogrāfijas! (Atgādinu, ka šobrīd Intel centrālais birojs atrodas Ņižņijnovgorodā). Dalībniekiem tika dotas 26 stundas koda rakstīšanai, un beigās viņiem bija jāprezentē savs risinājums. Atsevišķa priekšrocība bija demo sesijas klātbūtne, lai pārliecinātos, ka viss iecerētais ir reāli īstenots un nepaliek idejas prezentācijā. Preces, uzkodas, ēdiens, viss arī bija!

Turklāt Intel pēc izvēles nodrošināja kameras, Raspberry PI, Neural Compute Stick 2.

Uzdevuma atlase

Viena no grūtākajām daļām, gatavojoties brīvas formas hakatonam, ir izaicinājuma izvēle. Mēs nekavējoties nolēmām nākt klajā ar kaut ko tādu, kas vēl nebija produktā, jo paziņojumā bija teikts, ka tas ir ļoti apsveicami.

Izanalizējot modeļi, kas ir iekļauti produktā pašreizējā laidienā, nonākam pie secinājuma, ka lielākā daļa no tiem atrisina dažādas datorredzes problēmas. Turklāt ir ļoti grūti nākt klajā ar problēmu datorredzes jomā, kuru nevar atrisināt, izmantojot OpenVINO, un pat ja to var izgudrot, ir grūti atrast iepriekš apmācītus modeļus publiskajā telpā. Mēs nolemjam rakt citā virzienā - runas apstrādes un analītikas virzienā. Apskatīsim interesantu uzdevumu atpazīt emocijas no runas. Jāteic, ka OpenVINO jau ir modelis, kas nosaka cilvēka emocijas pēc sejas, taču:

Teorētiski ir iespējams izveidot kombinētu algoritmu, kas darbosies gan ar skaņu, gan attēlu, kam vajadzētu dot precizitātes pieaugumu.
Kamerām parasti ir šaurs skata leņķis; ir nepieciešama vairāk nekā viena kamera, lai aptvertu lielu laukumu; skaņai nav šādu ierobežojumu.

Attīstīsim ideju: par pamatu ņemsim ideju par mazumtirdzniecības segmentu. Jūs varat izmērīt klientu apmierinātību pie veikala kasēm. Ja kāds no klientiem ir neapmierināts ar pakalpojumu un sāk paaugstināt tonusu, nekavējoties var saukt pēc palīdzības administratoram.
Šajā gadījumā mums ir jāpievieno cilvēka balss atpazīšana, kas ļaus mums atšķirt veikala darbiniekus no klientiem un nodrošināt analīzi katram indivīdam. Nu, turklāt būs iespējams analizēt pašu veikala darbinieku uzvedību, novērtēt atmosfēru kolektīvā, izklausās labi!

Mēs formulējam prasības savam risinājumam:

Mērķa ierīces mazs izmērs
Darbība reāllaikā
Zema cena
Viegla mērogojamība

Rezultātā kā mērķa ierīci mēs izvēlamies Raspberry Pi 3 c Intel NCS 2.

Šeit ir svarīgi atzīmēt vienu svarīgu NCS iezīmi - tā vislabāk darbojas ar standarta CNN arhitektūrām, taču, ja jums ir nepieciešams palaist modeli ar pielāgotiem slāņiem, sagaidiet zema līmeņa optimizāciju.

Ir tikai viena maza lieta, kas jādara: jums ir jāiegādājas mikrofons. Parasts USB mikrofons derēs, taču tas neizskatīsies labi kopā ar RPI. Bet pat šeit risinājums burtiski “atrodas blakus”. Lai ierakstītu balsi, mēs nolemjam izmantot komplektā iekļauto Voice Bonnet paneli Google AIY balss komplekts, uz kura ir vadu stereo mikrofons.

Lejupielādējiet Raspbian no AIY projektu krātuve un augšupielādējiet to zibatmiņas diskā, pārbaudiet, vai mikrofons darbojas, izmantojot šādu komandu (tas ierakstīs audio 5 sekundes un saglabās to failā):

arecord -d 5 -r 16000 test.wav

Uzreiz jāatzīmē, ka mikrofons ir ļoti jutīgs un labi uztver troksni. Lai to labotu, dodieties uz alsamixer, atlasiet Uztveršanas ierīces un samaziniet ievades signāla līmeni līdz 50-60%.

Pārveidojam korpusu ar vīli un viss der, var pat aizvērt ar vāku

Indikatora pogas pievienošana

Izjaucot AIY Voice Kit, atceramies, ka ir RGB poga, kuras fona apgaismojumu var vadīt ar programmatūru. Mēs meklējam “Google AIY Led” un atrodam dokumentāciju: https://aiyprojects.readthedocs.io/en/latest/aiy.leds.html
Kāpēc neizmantot šo pogu, lai parādītu atpazīto emociju, mums ir tikai 7 klases, un pogai ir 8 krāsas, tikai pietiekami!

Mēs savienojam pogu caur GPIO ar Voice Bonnet, ielādējam nepieciešamās bibliotēkas (tās jau ir instalētas izplatīšanas komplektā no AIY projektiem)

from aiy.leds import Leds, Color
from aiy.leds import RgbLeds

Izveidosim diktu, kurā katrai emocijai būs atbilstoša krāsa RGB Tuple formā un aiy.leds.Leds klases objekts, caur kuru mēs atjaunināsim krāsu:

led_dict = {'neutral': (255, 255, 255), 'happy': (0, 255, 0), 'sad': (0, 255, 255), 'angry': (255, 0, 0), 'fearful': (0, 0, 0), 'disgusted':  (255, 0, 255), 'surprised':  (255, 255, 0)} 
leds = Leds()

Un visbeidzot, pēc katras jaunas emociju prognozes, mēs atjaunināsim pogas krāsu atbilstoši tai (pēc atslēgas).

leds.update(Leds.rgb_on(led_dict.get(classes[prediction])))

Poga, sadedzini!

Darbs ar balsi

Mēs izmantosim pyaudio, lai tvertu straumi no mikrofona, un webrtcvad, lai filtrētu troksni un noteiktu balsi. Turklāt mēs izveidosim rindu, kurai asinhroni pievienosim un noņemsim balss fragmentus.

Tā kā Webrtcvad ir ierobežots piegādātā fragmenta izmērs - tam jābūt vienādam ar 10/20/30 ms, un emociju atpazīšanas modeļa apmācība (kā mēs uzzināsim vēlāk) tika veikta uz 48kHz datu kopas, mēs tveriet gabalus ar izmēru 48000 × 20 ms/1000 × 1 (mono) = 960 baiti. Webrtcvad atgriezīs True/False katram no šiem gabaliem, kas atbilst balsojuma esamībai vai neesamībai daļā.

Ieviesīsim šādu loģiku:

Mēs pievienosim sarakstam tos gabalus, kur ir balsojums, ja balsošanas nav, tad palielināsim tukšo gabalu skaitītāju.
Ja tukšo gabalu skaitītājs ir >=30 (600 ms), tad skatāmies uzkrāto gabalu saraksta lielumu; ja tas ir >250, tad pievienojam rindai; ja nē, uzskatām, ka garums ar ierakstu nepietiek, lai to ievadītu modelim, lai identificētu runātāju.
Ja tukšo gabalu skaitītājs joprojām ir < 30 un uzkrāto gabalu saraksta lielums pārsniedz 300, fragmentu pievienosim rindai precīzākai prognozei. (jo emocijas laika gaitā mēdz mainīties)

 def to_queue(frames):
    d = np.frombuffer(b''.join(frames), dtype=np.int16)
    return d

framesQueue = queue.Queue()
def framesThreadBody():
    CHUNK = 960
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 48000

    p = pyaudio.PyAudio()
    vad = webrtcvad.Vad()
    vad.set_mode(2)
    stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)
    false_counter = 0
    audio_frame = []
    while process:
        data = stream.read(CHUNK)
        if not vad.is_speech(data, RATE):
            false_counter += 1
            if false_counter >= 30:
                if len(audio_frame) > 250:              
                    framesQueue.put(to_queue(audio_frame,timestamp_start))
                    audio_frame = []
                    false_counter = 0

        if vad.is_speech(data, RATE):
            false_counter = 0
            audio_frame.append(data)
            if len(audio_frame) > 300:                
                    framesQueue.put(to_queue(audio_frame,timestamp_start))
                    audio_frame = []

Ir pienācis laiks meklēt iepriekš apmācītus modeļus publiskajā domēnā, dodieties uz github, Google, taču atcerieties, ka mums ir ierobežojumi attiecībā uz izmantoto arhitektūru. Šī ir diezgan sarežģīta daļa, jo jums ir jāpārbauda modeļi uz jūsu ievades datiem un papildus jāpārveido tie OpenVINO iekšējā formātā - IR (Intermediate Representation). Izmēģinājām kādus 5-7 dažādus risinājumus no github, un, ja emociju atpazīšanas modelis nostrādāja uzreiz, tad ar balss atpazīšanu bija jāgaida ilgāk - viņi izmanto sarežģītāku arhitektūru.

Mēs koncentrējamies uz sekojošo:

Emocijas no balss - https://github.com/alexmuhr/Voice_Emotion
Tas darbojas pēc šāda principa: audio tiek sagriezts noteikta izmēra fragmentos, katram no šiem fragmentiem mēs atlasām MFCC un pēc tam iesniedziet tos kā ievadi CNN
Balss atpazīšana - https://github.com/linhdvu14/vggvox-speaker-identification
Šeit MFCC vietā strādājam ar spektrogrammu, pēc FFT padodam signālu uz CNN, kur izejā iegūstam balss vektora attēlojumu.

Tālāk mēs runāsim par modeļu konvertēšanu, sākot ar teoriju. OpenVINO ietver vairākus moduļus:

Atveriet Modeļu zoodārzu, kuru modeļus varētu izmantot un iekļaut jūsu produktā
Model Optimzer, pateicoties kuram jūs varat pārveidot modeli no dažādiem ietvara formātiem (Tensorflow, ONNX utt.) Intermediate Representation formātā, ar kuru mēs strādāsim tālāk
Inference Engine ļauj palaist modeļus IR formātā Intel procesoros, Myriad mikroshēmās un Neural Compute Stick paātrinātājos
Visefektīvākā OpenCV versija (ar Inference Engine atbalstu)
Katrs modelis IR formātā ir aprakstīts ar diviem failiem: .xml un .bin.
Modeļi tiek pārveidoti IR formātā, izmantojot modeļa optimizētāju:
```
python /opt/intel/openvino/deployment_tools/model_optimizer/mo_tf.py --input_model speaker.hdf5.pb --data_type=FP16 --input_shape [1,512,1000,1]
```
--data_type ļauj izvēlēties datu formātu, ar kādu modelis darbosies. Tiek atbalstīti FP32, FP16, INT8. Optimālā datu veida izvēle var dot labu veiktspējas palielinājumu.
--input_shape norāda ievades datu izmēru. Šķiet, ka C++ API ir iespēja to dinamiski mainīt, taču mēs tik tālu nemeklējām un vienkārši labojām to vienam no modeļiem.
Tālāk mēģināsim ielādēt jau pārveidoto modeli IR formātā caur DNN moduli OpenCV un pārsūtīt uz to.
```
import cv2 as cv
emotionsNet = cv.dnn.readNet('emotions_model.bin',
                          'emotions_model.xml')
emotionsNet.setPreferableTarget(cv.dnn.DNN_TARGET_MYRIAD)
```
Pēdējā rindiņa šajā gadījumā ļauj novirzīt aprēķinus uz Neural Compute Stick, pamata aprēķini tiek veikti procesoram, bet Raspberry Pi gadījumā tas nedarbosies, jums būs nepieciešams stick.

Tālāk loģika ir šāda: mēs sadalām savu audio noteikta izmēra logos (mums tas ir 0.4 s), mēs pārvēršam katru no šiem logiem par MFCC, ko pēc tam ievadām režģī:
```
emotionsNet.setInput(MFCC_from_window)
result = emotionsNet.forward()
```
Tālāk ņemsim visizplatītāko klasi visiem logiem. Vienkāršs risinājums, taču hakatonam nav jāizdomā kaut kas pārāk abstrakts, tikai tad, ja ir laiks. Mums vēl daudz jāstrādā, tāpēc ejam tālāk – tiksim galā ar balss atpazīšanu. Vajag izveidot kaut kādu datu bāzi, kurā glabātos iepriekš ierakstīto balsu spektrogrammas. Tā kā laika ir palicis maz, mēs šo problēmu atrisināsim, cik vien spēsim.

Proti, veidojam skriptu balss fragmenta ierakstīšanai (tas darbojas tāpat kā iepriekš aprakstīts, tikai pārtraucot no tastatūras saglabās balsi failā).

Pamēģināsim:
```
python3 voice_db/record_voice.py test.wav
```
Mēs ierakstām vairāku cilvēku (mūsu gadījumā trīs komandas locekļu) balsis
Pēc tam katrai ierakstītajai balsij veicam ātro Furjē transformāciju, iegūstam spektrogrammu un saglabājam to kā numpy masīvu (.npy):
```
for file in glob.glob("voice_db/*.wav"):
        spec = get_fft_spectrum(file)
        np.save(file[:-4] + '.npy', spec)
```
Sīkāka informācija failā create_base.py
Rezultātā, palaižot galveno skriptu, mēs pašā sākumā iegūsim iegulšanu no šīm spektrogrammām:
```
for file in glob.glob("voice_db/*.npy"):
    spec = np.load(file)
    spec = spec.astype('float32')
    spec_reshaped = spec.reshape(1, 1, spec.shape[0], spec.shape[1])
    srNet.setInput(spec_reshaped)
    pred = srNet.forward()
    emb = np.squeeze(pred)
```
Pēc iegulšanas saņemšanas no apskaņotā segmenta, mēs varēsim noteikt, kam tas pieder, ņemot kosinusa attālumu no fragmenta līdz visām balsīm datubāzē (jo mazāka, jo lielāka iespēja) - demonstrācijai mēs uzstādām slieksni līdz 0.3):
```
        dist_list = cdist(emb, enroll_embs, metric="cosine")
        distances = pd.DataFrame(dist_list, columns = df.speaker)
```
Nobeigumā vēlos atzīmēt, ka secinājuma ātrums bija ātrs un ļāva pievienot vēl 1-2 modeļus (7 sekunžu garam paraugam bija nepieciešami 2.5 secinājumi). Mums vairs nebija laika pievienot jaunus modeļus un koncentrējāmies uz tīmekļa lietojumprogrammas prototipa rakstīšanu.

Tīmekļa lietojumprogramma

Svarīgs punkts: mēs paņemam līdzi maršrutētāju no mājām un izveidojam savu lokālo tīklu, tas palīdz savienot ierīci un klēpjdatorus tīklā.

Aizmugursistēma ir tiešs ziņojumu kanāls starp priekšpusi un Raspberry Pi, kura pamatā ir tīmekļa ligzdas tehnoloģija (http, izmantojot tcp protokolu).

Pirmais posms ir apstrādātas informācijas saņemšana no Raspberry, tas ir, json iesaiņoti prognozētāji, kas tiek saglabāti datu bāzē ceļojuma pusceļā, lai varētu ģenerēt statistiku par lietotāja emocionālo fonu attiecīgajā periodā. Pēc tam šī pakete tiek nosūtīta uz priekšgalu, kas izmanto abonementu un saņem paketes no tīmekļa ligzdas galapunkta. Viss aizmugursistēmas mehānisms ir veidots golang valodā; tas tika izvēlēts, jo tas ir labi piemērots asinhroniem uzdevumiem, ar kuriem goroutines labi tiek galā.
Piekļūstot galapunktam, lietotājs tiek reģistrēts un ievadīts struktūrā, pēc tam tiek saņemts viņa ziņojums. Gan lietotājs, gan ziņojums tiek ievadīti kopējā centrmezglā, no kura ziņojumi jau tiek sūtīti tālāk (uz abonēto fronti), un, ja lietotājs noslēdz savienojumu (aveņu vai priekšpuse), tad viņa abonements tiek atcelts un viņš tiek noņemts no centrs.

Mēs gaidām savienojumu no aizmugures

Priekšgals ir tīmekļa lietojumprogramma, kas rakstīta JavaScript valodā, izmantojot React bibliotēku, lai paātrinātu un vienkāršotu izstrādes procesu. Šīs lietojumprogrammas mērķis ir vizualizēt datus, kas iegūti, izmantojot algoritmus, kas darbojas aizmugures pusē un tieši Raspberry Pi. Lapā ir ieviesta sekciju maršrutēšana, izmantojot react-router, bet galvenā interesējošā lapa ir galvenā lapa, kurā no servera tiek saņemta nepārtraukta datu plūsma reāllaikā, izmantojot WebSocket tehnoloģiju. Raspberry Pi nosaka balsi, no reģistrētās datu bāzes nosaka, vai tā pieder konkrētai personai, un nosūta klientam varbūtību sarakstu. Klients parāda jaunākos attiecīgos datus, parāda tās personas iemiesojumu, kura, visticamāk, runāja mikrofonā, kā arī emocijas, ar kurām viņš izrunā vārdus.

Mājas lapa ar atjauninātām prognozēm

Secinājums

Nebija iespējams visu paveikt, kā plānots, mums vienkārši nebija laika, tāpēc galvenā cerība bija demonstrācijā, ka viss izdosies. Prezentācijā viņi runāja par to, kā viss darbojas, kādus modeļus paņēma, ar kādām problēmām saskārās. Tālāk sekoja demonstrācijas daļa – eksperti nejaušā secībā staigāja pa telpu un piegāja pie katras komandas, lai apskatītu strādājošo prototipu. Viņi arī uzdeva mums jautājumus, katrs atbildēja uz savu daļu, viņi atstāja tīmekli klēpjdatorā, un viss patiešām darbojās, kā paredzēts.

Ļaujiet man atzīmēt, ka mūsu risinājuma kopējās izmaksas bija USD 150:
- Raspberry Pi 3 ~ 35 USD
- Google AIY Voice Bonnet (varat iekasēt maksu par runātāju) ~ 15 USD
- Intel NCS 2 ~ 100 USD
Kā uzlabot:
- Izmantojiet klienta reģistrāciju - lūdziet izlasīt tekstu, kas tiek ģenerēts nejauši
- Pievienojiet vēl dažus modeļus: pēc balss varat noteikt dzimumu un vecumu
- Atsevišķas vienlaicīgi skanošas balsis (diarizācija)
Repozitorijs: https://github.com/vladimirwest/OpenEMO

Mēs esam noguruši, bet laimīgi

Nobeigumā vēlos pateikt paldies organizatoriem un dalībniekiem. No citu komandu projektiem mums personīgi patika bezmaksas stāvvietu uzraudzības risinājums. Mums tā bija ļoti forša pieredze, iedziļinoties produktā un attīstībā. Ceru, ka reģionos notiks arvien vairāk interesantu pasākumu, arī par AI tēmām.

Avots: www.habr.com

OpenVINO hakatons: balss un emociju atpazīšana vietnē Raspberry Pi

Uzdevuma atlase

Indikatora pogas pievienošana

Darbs ar balsi

Tīmekļa lietojumprogramma

Secinājums

Pievieno komentāru Atcelt atbildi