Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Hayu urang émut yén Elastic Stack dumasar kana database Elasticsearch non-relational, antarmuka wéb Kibana sareng kolektor data sareng prosesor (Logstash anu paling kasohor, rupa-rupa Beats, APM sareng anu sanésna). Salah sahiji tambihan anu saé pikeun sakabéh tumpukan produk anu didaptarkeun nyaéta analisis data nganggo algoritma pembelajaran mesin. Dina artikel urang ngartos naon algoritma ieu. Mangga handapeun ucing.

Pembelajaran mesin mangrupikeun fitur anu mayar tina shareware Elastic Stack sareng kalebet dina X-Pack. Pikeun ngamimitian nganggo éta, ngan ukur aktipkeun uji coba 30 dinten saatos pamasangan. Saatos jaman percobaan kadaluwarsa, anjeun tiasa nyuhunkeun dukungan pikeun ngalegaan atanapi mésér langganan. Biaya langganan diitung henteu dumasar kana volume data, tapi dina jumlah titik anu dianggo. Henteu, volume data, tangtosna, mangaruhan jumlah titik anu diperyogikeun, tapi tetep pendekatan kana lisénsi ieu langkung manusiawi dina hubunganana sareng anggaran perusahaan. Upami henteu peryogi produktivitas anu luhur, anjeun tiasa ngahémat artos.

ML dina tumpukan elastis ditulis dina C ++ tur ngalir di luar JVM, nu Elasticsearch sorangan ngajalankeun. Nyaéta, prosésna (ku jalan kitu, éta disebut autodetect) meakeun sadayana anu JVM henteu ngelek. Dina stand demo ieu teu jadi kritis, tapi dina lingkungan produksi hal anu penting pikeun allocate titik misah pikeun tugas ML.

Algoritma pembelajaran mesin digolongkeun kana dua kategori − jeung guru и tanpa guru. Dina tumpukan elastis, algoritma aya dina kategori "unsupervised". Ku link ieu Anjeun tiasa ningali alat matematika tina algoritma pembelajaran mesin.

Pikeun ngalakukeun analisa, algoritma pembelajaran mesin ngagunakeun data anu disimpen dina indéks Elasticsearch. Anjeun tiasa nyieun tugas pikeun analisis duanana tina panganteur Kibana tur ngaliwatan API. Upami anjeun ngalakukeun ieu ngalangkungan Kibana, maka anjeun henteu kedah terang sababaraha hal. Salaku conto, indéks tambahan anu dianggo ku algoritma salami operasina.

Indéks tambahan dipaké dina prosés analisis.ml-state - informasi ngeunaan model statistik (setélan analisis);
.ml-anomali-* - hasil tina algoritma ML;
.ml-bewara - setelan pikeun bewara dumasar kana hasil analisis.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Struktur data dina pangkalan data Elasticsearch diwangun ku indéks sareng dokumén anu disimpen di jerona. Lamun dibandingkeun jeung database relational, hiji indéks bisa dibandingkeun jeung schema database, sarta dokumen ka catetan dina tabel. Perbandingan ieu kondisional sareng disayogikeun pikeun nyederhanakeun pamahaman bahan salajengna pikeun anu ngan ukur nguping ngeunaan Elasticsearch.

Fungsionalitas anu sami sayogi ngalangkungan API sapertos antarmuka wéb, janten pikeun kajelasan sareng pamahaman konsép, kami bakal nunjukkeun kumaha ngonpigurasikeunana ngaliwatan Kibana. Dina ménu kénca aya bagian Pembelajaran Mesin dimana anjeun tiasa nyiptakeun padamelan énggal. Dina panganteur Kibana kasampak kawas gambar di handap ieu. Ayeuna urang bakal nganalisis unggal jinis tugas sareng nunjukkeun jinis analisis anu tiasa diwangun di dieu.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Tunggal Métrik - analisis hiji métrik, Multi Métrik - analisis dua atawa leuwih métrik. Dina duanana kasus, unggal métrik dianalisis dina lingkungan terasing, i.e. algoritma teu tumut kana akun paripolah metrics dianalisis paralel, sabab bisa sigana dina kasus Multi métrik. Pikeun ngalaksanakeun itungan kalayan ngitung korelasi rupa-rupa métrik, anjeun tiasa nganggo Analisis Populasi. Sareng Advanced nyaéta nyaluyukeun algoritma sareng pilihan tambahan pikeun tugas-tugas anu tangtu.

Métrik Tunggal

Nganalisis parobahan dina hiji métrik tunggal mangrupikeun hal anu paling sederhana anu tiasa dilakukeun di dieu. Saatos ngaklik Jieun Pakasaban, algoritma bakal milarian anomali.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Di lapang Aggregation Anjeun tiasa milih pendekatan pikeun milarian anomali. Contona, nalika min nilai handap nilai has bakal dianggap anomali. Dahar Maks, High Mean, Low, Mean, Béda jeung sajabana. Katerangan sadaya fungsi tiasa dipendakan link.

Di lapang lapang nunjukkeun widang numerik dina dokumen nu urang bakal ngalaksanakeun analisis.

Di lapang Ember bentang - granularitas interval dina timeline dimana analisa bakal dilaksanakeun. Anjeun tiasa percanten ka automation atanapi milih sacara manual. Gambar di handap mangrupakeun conto granularity teuing low - Anjeun bisa sono anomali. Nganggo setelan ieu, anjeun tiasa ngarobih sensitipitas algoritma kana anomali.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Durasi data dikumpulkeun mangrupa hal konci anu mangaruhan efektivitas analisis. Salila analisa, algoritma ngidentipikasi interval ulangan, ngitung interval kapercayaan (garis dasar) sareng ngidentipikasi anomali - simpangan atipikal tina kabiasaan métrik biasa. Contona waé:

Baselines kalawan sapotong leutik data:

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Nalika algoritma gaduh hal pikeun diajar, dasarna sapertos kieu:

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Saatos ngamimitian tugas, algoritma nangtukeun panyimpangan anomali tina norma sareng pangkatna dumasar kana kamungkinan anomali (warna labél anu saluyu dituduhkeun dina kurung):

Awas (biru): kirang ti 25
minor (konéng): 25-50
Mayor (jeruk): 50-75
Kritis (beureum): 75-100

Grafik di handap nembongkeun conto anomali kapanggih.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Di dieu anjeun tiasa ningali angka 94, anu nunjukkeun kamungkinan anomali. Ieu jelas yén saprak nilaina deukeut ka 100, eta hartina urang boga hiji anomali. Kolom di handap grafik nembongkeun kamungkinan pejoratively leutik 0.000063634% tina nilai métrik muncul di dinya.

Salian milarian anomali, anjeun tiasa ngajalankeun ramalan di Kibana. Hal ieu dilakukeun saderhana sareng tina pandangan anu sami sareng anomali - tombol ramalan di pojok katuhu luhur.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Ramalan dijieun pikeun maksimum 8 minggu sateuacanna. Malah lamun rék, éta euweuh mungkin ku desain.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Dina sababaraha kaayaan, ramalan bakal mangpaat pisan, contona, nalika ngawaskeun beban pangguna dina infrastruktur.

Multi métrik

Hayu urang teraskeun kana fitur ML salajengna dina Elastic Stack - nganalisa sababaraha métrik dina hiji angkatan. Tapi ieu lain hartosna yén gumantungna hiji métrik on sejen bakal dianalisis. Ieu sami sareng Metrik Tunggal, tapi kalayan sababaraha métrik dina hiji layar pikeun gampang ngabandingkeun dampak hiji kana anu sanés. Urang bakal ngobrol ngeunaan analisa gumantungna hiji métrik dina anu sanés dina bagian Populasi.

Saatos ngaklik alun-alun sareng Multi Metric, jandela sareng setélan bakal némbongan. Hayu urang nempo aranjeunna dina leuwih jéntré.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Kahiji anjeun kudu milih widang pikeun analisis jeung aggregation data dina eta. Pilihan agrégasi di dieu sami sareng pikeun Métrik Tunggal (Maks, High Mean, Low, Mean, Béda jeung sajabana). Salajengna, upami hoyong, data dibagi kana salah sahiji widang (field Data pamisah). Dina conto, urang ngalakukeun ieu ku lapangan AsalAirportID. Perhatikeun yén grafik métrik di beulah katuhu ayeuna dibere salaku sababaraha grafik.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

médan Widang Utama (Influencer) langsung mangaruhan anomali nu dideteksi. Sacara standar bakal salawasna aya sahanteuna hiji nilai di dieu, sarta anjeun bisa nambahkeun leuwih tambahan. Algoritma bakal tumut kana akun pangaruh widang ieu nalika analisa sarta nembongkeun nilai paling "pangaruh".

Saatos peluncuran, hal sapertos kieu bakal muncul dina antarmuka Kibana.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Ieu nu disebut peta panas tina anomali pikeun tiap nilai widang AsalAirportID, anu kami nunjukkeun dina Data pamisah. Saperti dina Métrik Tunggal, warna nunjukkeun tingkat simpangan abnormal. Éta merenah pikeun ngalakukeun analisa anu sami, contona, dina workstation pikeun ngalacak jalma anu ngagaduhan jumlah otorisasi anu curiga, jsb. Kami parantos nyerat ngeunaan kajadian curiga dina EventLog Windows, anu ogé tiasa dikumpulkeun sareng dianalisis di dieu.

Handapeun peta panas mangrupa daptar anomali, ti unggal anjeun bisa pindah ka view Métrik Tunggal pikeun analisis lengkep.

populasi

Pikeun milarian anomali diantara korelasi antara métrik anu béda, Elastic Stack gaduh analisis Populasi khusus. Éta kalayan bantosan anjeun tiasa milarian nilai anomali dina pagelaran server dibandingkeun sareng anu sanés nalika, contona, jumlah paménta ka sistem target naék.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Dina ilustrasi ieu, widang Populasi nunjukkeun nilai anu bakal aya hubunganana metrik anu dianalisis. Dina hal ieu nya éta ngaran prosés. Hasilna, urang bakal ningali kumaha beban processor unggal prosés dipangaruhan unggal lianna.

Punten perhatikeun yén grafik data anu dianalisis béda sareng kasus anu nganggo Métrik Tunggal sareng Multi Métrik. Hal ieu dilakukeun di Kibana ku rarancang pikeun ningkatkeun persepsi ngeunaan distribusi nilai data anu dianalisis.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Grafik nunjukkeun yén prosésna laku abnormal tekenan (Ku jalan kitu, dihasilkeun ku utiliti husus) dina server poipu, anu dipangaruhan (atawa tétéla jadi influencer) lumangsungna anomali ieu.

maju

Analytics kalawan fine tuning. Kalayan analisis Advanced, setélan tambahan muncul dina Kibana. Saatos ngaklik ubin Advanced dina ménu nyiptakeun, jandela ieu sareng tab muncul. Tab Rincian Proyék Kami ngaluncurkeun éta waé, aya setélan dasar anu henteu langsung aya hubunganana sareng nyetél analisa.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

В summary_count_field_name Optionally, Anjeun bisa nangtukeun ngaran widang ti dokumén ngandung nilai aggregated. Dina conto ieu, jumlah acara per menit. DI categorization_field_name nuduhkeun ngaran jeung nilai widang tina dokumen nu ngandung sababaraha nilai variabel. Nganggo topéng dina widang ieu, anjeun tiasa ngabagi data anu dianalisis kana subset. Nengetan tombol Tambahkeun detektor dina ilustrasi saméméhna. Di handap ieu hasil tina ngaklik tombol ieu.

Ngartos Mesin Pembelajaran dina tumpukan elastis (aka Elasticsearch, alias ELK)

Ieu blok setelan tambahan pikeun ngonpigurasikeun detektor anomali pikeun tugas khusus. Kami ngarencanakeun pikeun ngabahas kasus pamakean khusus (khususna kaamanan) dina tulisan di handap ieu. Salaku conto, tingali salah sahiji kasus disassembled. Éta pakait sareng milarian nilai anu jarang muncul sareng dilaksanakeun fungsi langka.

Di lapang fungsi Anjeun tiasa milih pungsi husus pikeun milarian anomali. Iwal jarang, aya sababaraha fungsi anu langkung menarik - waktos_poé и waktos_saminggu. Aranjeunna ngaidentipikasi anomali dina paripolah métrik sapanjang dinten atanapi minggu, masing-masing. fungsi analisis séjén aya dina dokuméntasi.

В field_name nunjukkeun widang dokumen dimana analisa bakal dilaksanakeun. By_field_name bisa dipaké pikeun misahkeun hasil analisis pikeun tiap nilai individu widang dokumen dieusian. Lamun ngeusian over_field_name anjeun meunang analisis populasi nu urang bahas di luhur. Lamun nangtukeun nilai dina partition_field_name, lajeng pikeun widang ieu dokumen baselines misah bakal diitung keur unggal nilai (nilai tiasa, contona, nami server atawa prosés dina server). DI ngaluarkeun_sering tiasa milih sadaya atawa teu sahiji bae, anu hartosna ngaluarkeun (atanapi kalebet) nilai widang dokumen anu sering kajantenan.

Dina tulisan ieu, kami nyobian masihan ide anu ringkes-gancang ngeunaan kamampuan diajar mesin dina Elastic Stack; masih seueur detil anu tinggaleun layar. Nyaritakeun kami dina koméntar kasus naon anu anjeun junun direngsekeun nganggo Elastic Stack sareng tugas naon anu anjeun anggo. Pikeun ngahubungan kami, anjeun tiasa nganggo pesen pribadi dina Habré atanapi formulir eupan balik dina website.

sumber: www.habr.com

Tambahkeun komentar