Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Atgādināsim, ka Elastic Stack pamatā ir nerelāciju Elasticsearch datubāze, Kibana tÄ«mekļa saskarne un datu savācēji un apstrādātāji (slavenākie Logstash, dažādi Beats, APM un citi). Viens no jaukajiem papildinājumiem visam uzskaitÄ«tajam produktu kopumam ir datu analÄ«ze, izmantojot maŔīnmācÄ«Å”anās algoritmus. Rakstā mēs saprotam, kas ir Å”ie algoritmi. LÅ«dzu zem kaÄ·a.

MaŔīnmācÄ«ba ir apmaksāta koplietoÅ”anas programmatÅ«ras Elastic Stack funkcija un ir iekļauta X-Pack. Lai sāktu to lietot, pēc instalÄ“Å”anas vienkārÅ”i aktivizējiet 30 dienu izmēģinājuma versiju. Pēc izmēģinājuma perioda beigām varat pieprasÄ«t atbalstu, lai to pagarinātu, vai iegādāties abonementu. AbonÄ“Å”anas maksa tiek aprēķināta nevis pamatojoties uz datu apjomu, bet gan uz izmantoto mezglu skaitu. Nē, datu apjoms, protams, ietekmē nepiecieÅ”amo mezglu skaitu, tomēr Ŕī pieeja licencÄ“Å”anai ir humānāka attiecÄ«bā pret uzņēmuma budžetu. Ja nav nepiecieÅ”ama augsta produktivitāte, varat ietaupÄ«t naudu.

ML elastÄ«gajā kaudzē ir rakstÄ«ts C++ valodā un darbojas ārpus JVM, kurā darbojas pats Elasticsearch. Tas ir, process (starp citu, to sauc par automātisko noteikÅ”anu) patērē visu, ko JVM neaprÄ«. Demonstrācijas stendā tas nav tik svarÄ«gi, taču ražoÅ”anas vidē ir svarÄ«gi pieŔķirt atseviŔķus mezglus ML uzdevumiem.

MaŔīnmācÄ«Å”anās algoritmus iedala divās kategorijās ar skolotāju Šø bez skolotāja. ElastÄ«gajā kaudzÄ«tē algoritms ir kategorijā ā€œnepārraudzÄ«tsā€. Autors Å”o saiti JÅ«s varat redzēt maŔīnmācÄ«Å”anās algoritmu matemātisko aparātu.

Lai veiktu analÄ«zi, maŔīnmācÄ«Å”anās algoritms izmanto Elasticsearch indeksos saglabātos datus. Varat izveidot analÄ«zes uzdevumus gan no Kibana saskarnes, gan caur API. Ja to darāt, izmantojot Kibana, dažas lietas jums nav jāzina. Piemēram, papildu indeksi, ko algoritms izmanto savas darbÄ«bas laikā.

AnalÄ«zes procesā izmantotie papildu indeksi.ml-state ā€” informācija par statistikas modeļiem (analÄ«zes iestatÄ«jumiem);
.ml-anomalies-* ā€” ML algoritmu rezultāti;
.ml-notifications ā€” paziņojumu iestatÄ«jumi, kuru pamatā ir analÄ«zes rezultāti.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Datu struktÅ«ra Elasticsearch datubāzē sastāv no indeksiem un tajos saglabātajiem dokumentiem. SalÄ«dzinot ar relāciju datu bāzi, indeksu var salÄ«dzināt ar datu bāzes shēmu, bet dokumentu ar ierakstu tabulā. Å is salÄ«dzinājums ir nosacÄ«ts un paredzēts, lai vienkārÅ”otu turpmākā materiāla izpratni tiem, kas par Elasticsearch ir tikai dzirdējuÅ”i.

Tā pati funkcionalitāte ir pieejama, izmantojot API, kas tÄ«mekļa saskarnē, tāpēc skaidrÄ«bas un jēdzienu izpratnes labad mēs parādÄ«sim, kā to konfigurēt, izmantojot Kibana. Kreisajā pusē esoÅ”ajā izvēlnē ir sadaļa MaŔīnmācÄ«Å”anās, kurā varat izveidot jaunu darbu. Kibana saskarnē tas izskatās kā attēlā zemāk. Tagad mēs analizēsim katru uzdevumu veidu un parādÄ«sim analÄ«zes veidus, kurus Å”eit var izveidot.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Single Metric ā€” viena metrikas analÄ«ze, Multi Metric ā€” divu vai vairāku metrikas analÄ«ze. Abos gadÄ«jumos katrs rādÄ«tājs tiek analizēts izolētā vidē, t.i. algoritms neņem vērā paralēli analizēto metrikas uzvedÄ«bu, kā tas varētu Ŕķist Multi Metric gadÄ«jumā. Lai veiktu aprēķinus, ņemot vērā dažādu metriku korelāciju, varat izmantot populācijas analÄ«zi. Un Advanced precÄ«zi noregulē algoritmus ar papildu opcijām noteiktiem uzdevumiem.

Viena metrika

Izmaiņu analÄ«ze vienā metrikā ir vienkārŔākā lieta, ko Å”eit var izdarÄ«t. Pēc noklikŔķināŔanas uz Izveidot darbu algoritms meklēs anomālijas.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Å ajā jomā Kopsavilkums jÅ«s varat izvēlēties pieeju anomāliju meklÄ“Å”anai. Piemēram, kad Min vērtÄ«bas, kas ir zemākas par tipiskām vērtÄ«bām, tiks uzskatÄ«tas par anomālām. Ēst Maks., Augsts vidējais, zems, vidējais, atŔķirÄ«gs un citi. Visu funkciju aprakstus var atrast ŠæŠ¾ ссыŠ»ŠŗŠµ.

Šajā jomā Lauks norāda ciparu lauku dokumentā, kurā mēs veiksim analīzi.

Å ajā jomā Kausa laidums ā€” intervālu precizitāte laika skalā, kurā tiks veikta analÄ«ze. Varat uzticēties automatizācijai vai izvēlēties manuāli. Tālāk redzamajā attēlā ir parādÄ«ts pārāk zemas precizitātes piemērs ā€” jÅ«s varat nepamanÄ«t anomāliju. Izmantojot Å”o iestatÄ«jumu, varat mainÄ«t algoritma jutÄ«bu pret anomālijām.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Savākto datu ilgums ir galvenais, kas ietekmē analÄ«zes efektivitāti. AnalÄ«zes laikā algoritms identificē atkārtoÅ”anās intervālus, aprēķina ticamÄ«bas intervālus (bāzes) un identificē anomālijas - netipiskas novirzes no metrikas ierastās uzvedÄ«bas. Tikai piemēram:

Pamatlīnijas ar nelielu datu daļu:

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Ja algoritmam ir no kā mācīties, bāzes līnija izskatās Ŕādi:

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Pēc uzdevuma uzsākÅ”anas algoritms nosaka anomālas novirzes no normas un sarindo tās pēc anomālijas iespējamÄ«bas (iekavās norādÄ«ta atbilstoŔās etiÄ·etes krāsa):

Brīdinājums (zils): mazāks par 25
Nepilngadīgas (dzeltenas): 25-50
Major (oranžs): 50-75
Kritiskais (sarkans): 75-100

Zemāk esoÅ”ajā diagrammā ir parādÄ«ts atrasto anomāliju piemērs.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Å eit var redzēt skaitli 94, kas norāda uz anomālijas iespējamÄ«bu. Ir skaidrs, ka, tā kā vērtÄ«ba ir tuvu 100, tas nozÄ«mē, ka mums ir anomālija. Kolonnā zem diagrammas ir parādÄ«ta pejoratÄ«vi mazā varbÅ«tÄ«ba ā€” 0.000063634% no metrikas vērtÄ«bas.

Papildus anomāliju meklÄ“Å”anai varat palaist prognozÄ“Å”anu Kibanā. Tas tiek darÄ«ts vienkārÅ”i un no tā paÅ”a skata ar anomālijām - poga Prognoze augŔējā labajā stÅ«rÄ«.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Prognoze tiek sastādÄ«ta maksimāli 8 nedēļas iepriekÅ”. Pat ja jÅ«s patieŔām vēlaties, tas vairs nav iespējams pēc dizaina.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Dažās situācijās prognoze būs ļoti noderīga, piemēram, uzraugot lietotāju slodzi uz infrastruktūru.

Daudzmetriska

Pāriesim pie nākamās ML funkcijas elastÄ«gajā kaudzÄ«tē ā€” vairāku metriku analÄ«zi vienā partijā. Bet tas nenozÄ«mē, ka tiks analizēta vienas metrikas atkarÄ«ba no citas. Tas ir tāds pats kā viena metrika, taču vienā ekrānā ir vairākas metrikas, lai ērti salÄ«dzinātu viena no tām ietekmi uz otru. Mēs runāsim par vienas metrikas atkarÄ«bas no cita analÄ«zi sadaļā IedzÄ«votāji.

Pēc noklikŔķināŔanas uz kvadrāta ar Multi Metric, parādÄ«sies logs ar iestatÄ«jumiem. ApskatÄ«sim tos sÄ«kāk.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Vispirms jums ir jāatlasa lauki analÄ«zei un tajos datu apkopoÅ”anai. ApkopoÅ”anas opcijas Å”eit ir tādas paÅ”as kā vienai metrikai (Maks., Augsts vidējais, zems, vidējais, atŔķirÄ«gs un citi). Turklāt, ja vēlaties, dati tiek sadalÄ«ti vienā no laukiem (lauks Datu sadalÄ«Å”ana). Piemērā mēs to izdarÄ«jām pēc lauka OriginAirportID. Ņemiet vērā, ka metrikas diagramma labajā pusē tagad tiek parādÄ«ta kā vairākas diagrammas.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Lauks Galvenās jomas (ietekmētāji) tieÅ”i ietekmē konstatētās anomālijas. Pēc noklusējuma Å”eit vienmēr bÅ«s vismaz viena vērtÄ«ba, un jÅ«s varat pievienot papildu vērtÄ«bas. Algoritms ņems vērā Å”o lauku ietekmi, analizējot un parādÄ«s ā€œietekmÄ«gākāsā€ vērtÄ«bas.

Pēc palaiÅ”anas Kibana saskarnē parādÄ«sies kaut kas lÄ«dzÄ«gs Å”im.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Å is ir tā sauktais anomāliju siltuma karte katrai lauka vērtÄ«bai OriginAirportID, ko mēs norādÄ«jām Datu sadalÄ«Å”ana. Tāpat kā ar vienu metriku, krāsa norāda patoloÄ£iskas novirzes lÄ«meni. LÄ«dzÄ«gu analÄ«zi ir ērti veikt, piemēram, darbstacijās, lai izsekotu tās, kurām ir aizdomÄ«gi liels autorizāciju skaits utt. Mēs jau rakstÄ«jām par aizdomÄ«giem notikumiem EventLog Windows, ko Å”eit var arÄ« apkopot un analizēt.

Zem siltuma kartes ir anomāliju saraksts, no kurām katra varat pārslēgties uz vienas metrikas skatu detalizētai analīzei.

Iedzīvotāji

Lai meklētu anomālijas starp dažādu metriku korelācijām, elastīgajai kaudzei ir specializēta populācijas analīze. Ar tās palīdzību jūs varat meklēt anomālas servera veiktspējas vērtības salīdzinājumā ar citām, kad, piemēram, palielinās pieprasījumu skaits mērķa sistēmai.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Šajā ilustrācijā lauks Populācija norāda vērtību, uz kuru attieksies analizētā metrika. Šajā gadījumā tas ir procesa nosaukums. Rezultātā mēs redzēsim, kā katra procesa procesora slodze ietekmēja viens otru.

LÅ«dzu, ņemiet vērā, ka analizēto datu diagramma atŔķiras no gadÄ«jumiem, kad tiek izmantota viena metrika un vairāku metrika. Tas tika veikts Kibanā, lai uzlabotu analizēto datu vērtÄ«bu sadalÄ«juma uztveri.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Diagramma parāda, ka process darbojās neparasti uzsvars (starp citu, Ä£enerē Ä«paÅ”a utilÄ«ta) serverÄ« poipu, kurÅ” ietekmēja (vai izrādÄ«jās ietekmētājs) Ŕīs anomālijas raÅ”anos.

uzlabots

AnalÄ«ze ar precizÄ“Å”anu. Izmantojot papildu analÄ«zi, programmā Kibana tiek parādÄ«ti papildu iestatÄ«jumi. Pēc noklikŔķināŔanas uz elementa Papildu izveides izvēlnē tiek parādÄ«ts Å”is logs ar cilnēm. Tab darba detaļas Mēs to izlaidām ar nolÅ«ku, ir pamata iestatÄ«jumi, kas nav tieÅ”i saistÄ«ti ar analÄ«zes iestatÄ«Å”anu.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Š’ kopsavilkuma_skaita_lauka_nosaukums Pēc izvēles varat norādÄ«t lauka nosaukumu no dokumentiem, kuros ir apkopotas vērtÄ«bas. Å ajā piemērā notikumu skaits minÅ«tē. IN kategorijas_lauka_nosaukums norāda lauka nosaukumu un vērtÄ«bu no dokumenta, kurā ir kāda mainÄ«ga vērtÄ«ba. Izmantojot masku Å”ajā laukā, varat sadalÄ«t analizētos datus apakÅ”kopās. Pievērsiet uzmanÄ«bu pogai Pievienojiet detektoru iepriekŔējā ilustrācijā. Zemāk ir Ŕīs pogas noklikŔķināŔanas rezultāts.

Izpratne par maŔīnmācÄ«Å”anos elastÄ«gajā kaudzē (pazÄ«stams arÄ« kā Elasticsearch, arÄ« ELK)

Å eit ir papildu iestatÄ«jumu bloks anomāliju detektora konfigurÄ“Å”anai konkrētam uzdevumam. Mēs plānojam apspriest konkrētus lietoÅ”anas gadÄ«jumus (Ä«paÅ”i droŔības) turpmākajos rakstos. Piemēram, izskatu viens no izjauktajiem korpusiem. Tas ir saistÄ«ts ar reti sastopamu vērtÄ«bu meklÄ“Å”anu un tiek Ä«stenots reta funkcija.

Å ajā jomā funkcija Varat atlasÄ«t konkrētu funkciju, lai meklētu anomālijas. Izņemot rets, ir vēl pāris interesantas funkcijas - dienas laiks Šø nedēļas_laiks. Tie identificē metrikas darbÄ«bas novirzes attiecÄ«gi dienas vai nedēļas garumā. Citas analÄ«zes funkcijas ir dokumentācijā.

Š’ lauka_nosaukums norāda dokumenta lauku, kurā tiks veikta analÄ«ze. Pēc_lauka_nosaukuma var izmantot, lai atdalÄ«tu analÄ«zes rezultātus katrai atseviŔķai Å”eit norādÄ«tā dokumenta lauka vērtÄ«bai. Ja jÅ«s aizpildāt virs_lauka_nosaukums jÅ«s saņemat populācijas analÄ«zi, par kuru mēs runājām iepriekÅ”. Ja norādāt vērtÄ«bu partition_field_name, tad Å”im dokumenta laukam katrai vērtÄ«bai tiks aprēķinātas atseviŔķas bāzes lÄ«nijas (vērtÄ«ba var bÅ«t, piemēram, servera vai servera procesa nosaukums). IN izslēgt_bieži var izvēlēties visi vai neviens, kas nozÄ«mēs bieži sastopamo dokumenta lauku vērtÄ«bu izslēgÅ”anu (vai iekļauÅ”anu).

Å ajā rakstā mēs centāmies sniegt pēc iespējas Ä«su priekÅ”statu par maŔīnmācÄ«Å”anās iespējām elastÄ«gajā kaudzÄ«tē; aizkulisēs joprojām ir palicis daudz detaļu. Pastāstiet komentāros, kādus gadÄ«jumus jums izdevās atrisināt, izmantojot Elastic Stack, un kādiem uzdevumiem jÅ«s to izmantojat. Lai sazinātos ar mums, varat izmantot personÄ«gās ziņas HabrĆ© vai atsauksmju veidlapa vietnē.

Avots: www.habr.com

Pievieno komentāru