Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Le të kujtojmë se Elastic Stack bazohet në bazën e të dhënave jo-relacionale Elasticsearch, ndërfaqen e internetit Kibana dhe mbledhësit dhe përpunuesit e të dhënave (Logstash më i famshëm, Beats të ndryshëm, APM dhe të tjerë). Një nga shtesat e këndshme për të gjithë grupin e produkteve të listuara është analiza e të dhënave duke përdorur algoritmet e mësimit të makinerive. Në artikull kuptojmë se cilat janë këto algoritme. Ju lutem nën mace.

Mësimi i makinerisë është një veçori me pagesë e shareware Elastic Stack dhe përfshihet në X-Pack. Për të filluar përdorimin e tij, thjesht aktivizoni provën 30-ditore pas instalimit. Pas skadimit të periudhës së provës, mund të kërkoni mbështetje për ta zgjatur atë ose për të blerë një abonim. Kostoja e një abonimi llogaritet jo në bazë të vëllimit të të dhënave, por në numrin e nyjeve të përdorura. Jo, vëllimi i të dhënave, natyrisht, ndikon në numrin e nyjeve të kërkuara, por megjithatë kjo qasje ndaj licencimit është më humane në raport me buxhetin e kompanisë. Nëse nuk ka nevojë për produktivitet të lartë, mund të kurseni para.

ML në Elastic Stack është shkruar në C++ dhe funksionon jashtë JVM-së, në të cilën funksionon vetë Elasticsearch. Kjo do të thotë, procesi (nga rruga, quhet autodetect) konsumon gjithçka që JVM nuk gëlltit. Në një stendë demo kjo nuk është aq kritike, por në një mjedis prodhimi është e rëndësishme të ndahen nyje të veçanta për detyrat ML.

Algoritmet e mësimit të makinerisë ndahen në dy kategori - me mësuesin и pa mësues. Në Elastic Stack, algoritmi është në kategorinë "të pambikëqyrur". Nga kjo lidhje Ju mund të shihni aparatin matematikor të algoritmeve të mësimit të makinerive.

Për të kryer analizën, algoritmi i mësimit të makinës përdor të dhëna të ruajtura në indekset e Elasticsearch. Ju mund të krijoni detyra për analizë si nga ndërfaqja Kibana ashtu edhe përmes API. Nëse e bëni këtë përmes Kibanës, atëherë nuk keni nevojë të dini disa gjëra. Për shembull, indekse shtesë që përdor algoritmi gjatë funksionimit të tij.

Indekse shtesë të përdorura në procesin e analizës.ml-state — informacion rreth modeleve statistikore (cilësimet e analizës);
.ml-anomalitë-* — rezultatet e algoritmeve ML;
.ml-notifications — cilësimet për njoftimet bazuar në rezultatet e analizës.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Struktura e të dhënave në bazën e të dhënave Elasticsearch përbëhet nga indekse dhe dokumente të ruajtura në to. Kur krahasohet me një bazë të dhënash relacionale, një indeks mund të krahasohet me një skemë bazë të dhënash dhe një dokument me një rekord në një tabelë. Ky krahasim është i kushtëzuar dhe ofrohet për të thjeshtuar të kuptuarit e materialit të mëtejshëm për ata që kanë dëgjuar vetëm për Elasticsearch.

I njëjti funksionalitet është i disponueshëm përmes API-së si përmes ndërfaqes në internet, kështu që për qartësi dhe kuptim të koncepteve, ne do të tregojmë se si ta konfigurojmë atë përmes Kibana. Në menynë në të majtë ka një seksion Learning Machine ku mund të krijoni një punë të re. Në ndërfaqen Kibana duket si imazhi më poshtë. Tani do të analizojmë çdo lloj detyre dhe do të tregojmë llojet e analizave që mund të ndërtohen këtu.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Single Metric - analiza e një metrike, Multi Metric - analiza e dy ose më shumë metrikave. Në të dyja rastet, çdo metrikë analizohet në një mjedis të izoluar, d.m.th. algoritmi nuk merr parasysh sjelljen e metrikave të analizuara paralele, siç mund të duket në rastin e Multi Metric. Për të kryer llogaritjet duke marrë parasysh korrelacionin e metrikave të ndryshme, mund të përdorni analizën e popullsisë. Dhe Advanced po rregullon mirë algoritmet me opsione shtesë për detyra të caktuara.

Metrikë e vetme

Analiza e ndryshimeve në një metrikë të vetme është gjëja më e thjeshtë që mund të bëhet këtu. Pasi të klikoni në Create Job, algoritmi do të kërkojë anomali.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Në terren grumbull ju mund të zgjidhni një qasje për të kërkuar anomali. Për shembull, kur Min vlerat nën vlerat tipike do të konsiderohen anormale. Hani Maksimumi, mesatarja e lartë, e ulët, mesatare, e dallueshme dhe të tjerët. Mund të gjenden përshkrime të të gjitha funksioneve по ссылке.

Në terren Fushë tregon fushën numerike në dokumentin mbi të cilin do të bëjmë analizën.

Në terren Hapësira e kovës — granulariteti i intervaleve në afatin kohor përgjatë të cilit do të kryhet analiza. Mund t'i besoni automatizimit ose të zgjidhni manualisht. Imazhi i mëposhtëm është një shembull i granularitetit që është shumë i ulët - mund të humbisni anomalinë. Duke përdorur këtë cilësim, mund të ndryshoni ndjeshmërinë e algoritmit në anomali.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Kohëzgjatja e të dhënave të mbledhura është një gjë kyçe që ndikon në efektivitetin e analizës. Gjatë analizës, algoritmi identifikon intervalet e përsëritura, llogarit intervalet e besimit (linjat bazë) dhe identifikon anomalitë - devijimet atipike nga sjellja e zakonshme e metrikës. Vetëm për shembull:

Linjat bazë me një pjesë të vogël të të dhënave:

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Kur algoritmi ka diçka për të mësuar, vija bazë duket si kjo:

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Pas fillimit të detyrës, algoritmi përcakton devijimet anormale nga norma dhe i rendit ato sipas probabilitetit të një anomalie (ngjyra e etiketës përkatëse tregohet në kllapa):

Paralajmërim (blu): më pak se 25
Minor (e verdhë): 25-50
Major (portokalli): 50-75
Kritike (e kuqe): 75-100

Grafiku më poshtë tregon një shembull të anomalive të gjetura.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Këtu mund të shihni numrin 94, i cili tregon mundësinë e një anomalie. Është e qartë se duke qenë se vlera është afër 100, do të thotë se kemi një anomali. Kolona poshtë grafikut tregon probabilitetin pejorativisht të vogël prej 0.000063634% të vlerës metrike që shfaqet atje.

Përveç kërkimit të anomalive, mund të kryeni parashikime në Kibana. Kjo bëhet thjesht dhe nga e njëjta pamje me anomali - buton Parashikim në këndin e sipërm të djathtë.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Parashikimi bëhet për maksimumi 8 javë përpara. Edhe nëse vërtet dëshironi, nuk është më e mundur nga dizajni.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Në disa situata, parashikimi do të jetë shumë i dobishëm, për shembull, kur monitorohet ngarkesa e përdoruesit në infrastrukturë.

Shumë Metrikë

Le të kalojmë te veçoria tjetër ML në Elastic Stack - duke analizuar disa metrikë në një grup. Por kjo nuk do të thotë se do të analizohet varësia e një metrike nga një tjetër. Kjo është njësoj si Single Metric, por me metrika të shumta në një ekran për krahasim të lehtë të ndikimit të njërit në tjetrin. Ne do të flasim për analizimin e varësisë së një metrike nga një tjetër në seksionin Popullsia.

Pasi të klikoni në katror me Multi Metric, do të shfaqet një dritare me cilësime. Le t'i shikojmë ato në mënyrë më të detajuar.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Së pari ju duhet të zgjidhni fushat për analizë dhe grumbullimin e të dhënave mbi to. Opsionet e grumbullimit këtu janë të njëjta si për Metrikën e vetme (Maksimumi, mesatarja e lartë, e ulët, mesatare, e dallueshme dhe të tjerët). Më tej, nëse dëshironi, të dhënat ndahen në njërën nga fushat (fusha Ndarja e të dhënave). Në shembull, ne e bëmë këtë sipas fushës Origjina ID eAeroportit. Vini re se grafiku i metrikës në të djathtë tani paraqitet si grafikë të shumëfishtë.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Fushë Fushat kryesore (ndikuesit) ndikon drejtpërdrejt në anomalitë e zbuluara. Si parazgjedhje do të ketë gjithmonë të paktën një vlerë këtu dhe mund të shtoni të tjera. Algoritmi do të marrë parasysh ndikimin e këtyre fushave kur analizon dhe do të tregojë vlerat më "ndikuese".

Pas nisjes, diçka e tillë do të shfaqet në ndërfaqen Kibana.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Ky është i ashtuquajturi harta termike e anomalive për secilën vlerë të fushës Origjina ID eAeroportit, të cilën e kemi treguar në Ndarja e të dhënave. Ashtu si me Single Metric, ngjyra tregon nivelin e devijimit jonormal. Është e përshtatshme për të bërë një analizë të ngjashme, për shembull, në stacionet e punës për të gjurmuar ato me një numër të dyshimtë të madh autorizimesh, etj. Ne kemi shkruar tashmë rreth ngjarjeve të dyshimta në Windows EventLog, të cilat gjithashtu mund të mblidhen dhe analizohen këtu.

Poshtë hartës së nxehtësisë është një listë anomalish, nga secila mund të kaloni në pamjen Single Metric për analiza të hollësishme.

Popullsi

Për të kërkuar anomali midis korrelacioneve midis metrikave të ndryshme, Elastic Stack ka një analizë të specializuar të Popullsisë. Është me ndihmën e tij që ju mund të kërkoni vlera anormale në performancën e një serveri në krahasim me të tjerët kur, për shembull, rritet numri i kërkesave për sistemin e synuar.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Në këtë ilustrim, fusha Popullsia tregon vlerën me të cilën do të lidhen metrikat e analizuara. Në këtë rast është emri i procesit. Si rezultat, ne do të shohim se si ngarkesa e procesorit të secilit proces ndikoi njëri-tjetrin.

Ju lutemi vini re se grafiku i të dhënave të analizuara ndryshon nga rastet me Single Metric dhe Multi Metric. Kjo është bërë në Kibana me dizajn për një perceptim të përmirësuar të shpërndarjes së vlerave të të dhënave të analizuara.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Grafiku tregon se procesi u soll në mënyrë jonormale stres (nga rruga, e krijuar nga një mjet i veçantë) në server poipu, i cili ndikoi (ose doli të ishte ndikues) në shfaqjen e kësaj anomalie.

Avancuar

Analiza me akordim të imët. Me analizën e avancuar, cilësimet shtesë shfaqen në Kibana. Pasi klikoni në pllakën e avancuar në menynë e krijimit, shfaqet kjo dritare me skeda. Tab detajet e punës E kemi anashkaluar me qëllim, ka cilësime bazë që nuk lidhen drejtpërdrejt me vendosjen e analizës.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

В emri_fushë_përmbledhje_numërimi Opsionale, mund të specifikoni emrin e një fushe nga dokumentet që përmbajnë vlera të grumbulluara. Në këtë shembull, numri i ngjarjeve në minutë. NË emri_fushë_kategorizimi tregon emrin dhe vlerën e një fushe nga dokumenti që përmban një vlerë të ndryshueshme. Duke përdorur maskën në këtë fushë, mund të ndani të dhënat e analizuara në nënbashkësi. Kushtojini vëmendje butonit Shto detektor në ilustrimin e mëparshëm. Më poshtë është rezultati i klikimit të këtij butoni.

Kuptimi i të mësuarit të makinerive në grupin elastik (aka Elasticsearch, i njohur ndryshe si ELK)

Këtu është një bllok shtesë i cilësimeve për konfigurimin e detektorit të anomalive për një detyrë specifike. Ne planifikojmë të diskutojmë raste specifike të përdorimit (veçanërisht ato të sigurisë) në artikujt vijues. Për shembull, hidhni një sy një nga rastet e çmontuara. Ajo shoqërohet me kërkimin e vlerave që shfaqen rrallë dhe zbatohet funksion i rrallë.

Në terren funksion Ju mund të zgjidhni një funksion specifik për të kërkuar anomali. Përveç i rrallë, ka disa funksione më interesante - koha_e_ditës и koha_e_javës. Ata identifikojnë anomali në sjelljen e metrikës, përkatësisht gjatë ditës ose javës. Funksione të tjera të analizës është në dokumentacion.

В Emri i fushes tregon fushën e dokumentit mbi të cilin do të kryhet analiza. Sipas_emrit të_fushës mund të përdoret për të ndarë rezultatet e analizës për secilën vlerë individuale të fushës së dokumentit të specifikuar këtu. Nëse plotësoni mbi_emrin_fushë ju merrni analizën e popullsisë që diskutuam më lart. Nëse specifikoni një vlerë në emri i fushës_ndarjes, atëherë për këtë fushë të dokumentit do të llogariten baza të veçanta për secilën vlerë (vlera mund të jetë, për shembull, emri i serverit ose procesi në server). NË përjashtoj_i shpeshtë mund të zgjedhë të gjithë ose asnje, që do të thotë përjashtimi (ose përfshirja) e vlerave të fushës së dokumentit që ndodhin shpesh.

Në këtë artikull, ne u përpoqëm të japim një ide sa më të përmbledhur të jetë e mundur për aftësitë e mësimit të makinerive në Elastic Stack; ka ende shumë detaje të mbetura prapa skenave. Na tregoni në komente se cilat raste keni arritur të zgjidhni duke përdorur Elastic Stack dhe për cilat detyra e përdorni atë. Për të na kontaktuar, mund të përdorni mesazhe personale në Habré ose formulari i komenteve në faqen e internetit.

Burimi: www.habr.com

Shto një koment