Elastic Stack нь хамааралгүй Elasticsearch мэдээллийн сан, Кибана вэб интерфэйс, мэдээлэл цуглуулагч, процессор (хамгийн алдартай Logstash, төрөл бүрийн Beats, APM болон бусад) дээр суурилдаг гэдгийг санацгаая. Жагсаалтад орсон бүтээгдэхүүний бүх стекийн сайхан нэмэлтүүдийн нэг бол машин сургалтын алгоритмуудыг ашиглан өгөгдөлд дүн шинжилгээ хийх явдал юм. Нийтлэлд бид эдгээр алгоритмууд юу болохыг ойлгох болно. Муурны доор өгөөч.
Машины сургалт нь Shareware Elastic Stack-ийн төлбөртэй функц бөгөөд X-Pack-д багтсан болно. Үүнийг ашиглаж эхлэхийн тулд суулгасны дараа 30 хоногийн туршилтыг идэвхжүүлнэ үү. Туршилтын хугацаа дууссаны дараа та үүнийг сунгах эсвэл захиалга худалдаж авахын тулд дэмжлэг хүсч болно. Захиалгын зардлыг өгөгдлийн эзлэхүүн дээр биш харин ашигласан зангилааны тоогоор тооцдог. Үгүй ээ, мэдээллийн хэмжээ нь мэдээжийн хэрэг шаардлагатай зангилааны тоонд нөлөөлдөг боловч лиценз олгох энэ арга нь компанийн төсөвтэй харьцуулахад илүү хүмүүнлэг юм. Өндөр бүтээмжтэй байх шаардлагагүй бол мөнгө хэмнэх боломжтой.
Elastic Stack дахь ML нь C++ хэл дээр бичигдсэн бөгөөд Elasticsearch өөрөө ажилладаг JVM-ээс гадуур ажилладаг. Өөрөөр хэлбэл, процесс (дашрамд хэлэхэд үүнийг автомат илрүүлэх гэж нэрлэдэг) JVM-ийн залгидаггүй бүх зүйлийг хэрэглэдэг. Демо стенд дээр энэ нь тийм ч чухал биш боловч үйлдвэрлэлийн орчинд ML даалгавруудад тусдаа зангилаа хуваарилах нь чухал юм.
Машин сургалтын алгоритмууд нь хоёр ангилалд хуваагдана -
Шинжилгээг хийхийн тулд машин сургалтын алгоритм нь Elasticsearch индекст хадгалагдсан өгөгдлийг ашигладаг. Та Кибана интерфэйс болон API-ээр дамжуулан дүн шинжилгээ хийх даалгавруудыг үүсгэж болно. Хэрэв та үүнийг Кибанагаар дамжуулан хийвэл зарим зүйлийг мэдэх шаардлагагүй болно. Жишээлбэл, алгоритмын үйл ажиллагааны явцад ашигладаг нэмэлт индексүүд.
Шинжилгээний явцад ашигласан нэмэлт индексүүд.ml-төлөв — статистик загваруудын талаарх мэдээлэл (шинжилгээний тохиргоо);
.ml-anomalies-* — ML алгоритмын үр дүн;
.ml-мэдэгдэл — шинжилгээний үр дүнд үндэслэн мэдэгдлийн тохиргоо.
Elasticsearch мэдээллийн сан дахь өгөгдлийн бүтэц нь тэдгээрт хадгалагдсан индексүүд болон баримт бичгүүдээс бүрдэнэ. Харилцааны мэдээллийн сантай харьцуулбал индексийг өгөгдлийн сангийн схем, баримт бичгийг хүснэгтийн бичлэгтэй харьцуулж болно. Энэхүү харьцуулалт нь нөхцөлт бөгөөд зөвхөн Elasticsearch-ийн талаар сонссон хүмүүст нэмэлт материалын ойлголтыг хялбарчлах зорилгоор хийгдсэн болно.
API-ээр дамжуулан вэб интерфэйстэй ижил функцийг ашиглах боломжтой тул ойлголтыг тодорхой, ойлгохын тулд бид үүнийг Кибанагаар хэрхэн тохируулахыг харуулах болно. Зүүн талд байгаа цэсэнд та шинэ ажил үүсгэх боломжтой Machine Learning хэсэг байна. Кибана интерфэйс дээр доорх зураг шиг харагдаж байна. Одоо бид даалгаврын төрөл тус бүрд дүн шинжилгээ хийж, энд хийж болох шинжилгээний төрлүүдийг харуулах болно.
Single Metric - нэг хэмжүүрийн шинжилгээ, Multi Metric - хоёр ба түүнээс дээш хэмжүүрийн шинжилгээ. Аль ч тохиолдолд хэмжигдэхүүн бүрийг тусгаарлагдсан орчинд шинжилдэг, өөрөөр хэлбэл. Алгоритм нь Multi Metric-ийн хувьд параллель шинжлэгдсэн хэмжигдэхүүнүүдийн үйлдлийг харгалздаггүй. Төрөл бүрийн хэмжигдэхүүнүүдийн хамаарлыг харгалзан тооцооллыг хийхийн тулд хүн амын дүн шинжилгээг ашиглаж болно. Мөн Advanced нь тодорхой ажлуудын нэмэлт сонголт бүхий алгоритмуудыг нарийн тааруулж байна.
Нэг хэмжигдэхүүн
Өөрчлөлтийг нэг хэмжүүрээр шинжлэх нь энд хийж болох хамгийн энгийн зүйл юм. Ажил үүсгэх дээр дарсны дараа алгоритм нь хэвийн бус байдлыг хайх болно.
талбарт Нэгтгэсэн та гажиг хайх аргыг сонгож болно. Жишээлбэл, хэзээ би ердийн утгаас доогуур утгыг хэвийн бус гэж үзнэ. Идэх Макс, өндөр дундаж, бага, дундаж, ялгаатай мөн бусад. Бүх функцүүдийн тайлбарыг олж болно
талбарт хээрийн нь бидний дүн шинжилгээ хийх баримт бичгийн тоон талбарыг заана.
талбарт
Цуглуулсан мэдээллийн үргэлжлэх хугацаа нь шинжилгээний үр дүнд нөлөөлдөг гол зүйл юм. Шинжилгээний явцад алгоритм нь давтагдах интервалыг тодорхойлж, итгэлцлийн интервалыг (суурь шугам) тооцоолж, хэмжүүрийн ердийн зан төлөвөөс хэвийн бус хазайлтыг тодорхойлдог. Жишээ нь:
Өгөгдлийн жижиг хэсэг бүхий суурь үзүүлэлтүүд:
Алгоритмд суралцах зүйл байвал суурь нь дараах байдалтай харагдана.
Даалгаврыг эхлүүлсний дараа алгоритм нь нормоос хэвийн бус хазайлтыг тодорхойлж, гажиг үүсэх магадлалын дагуу эрэмбэлдэг (харгалзах шошгоны өнгийг хаалтанд заасан болно):
Анхааруулга (цэнхэр): 25-аас бага
Бага (шар): 25-50
Гол (улбар шар): 50-75
Чухал (улаан): 75-100
Доорх график нь олдсон гажигуудын жишээг харуулж байна.
Эндээс та 94 гэсэн тоог харж болно, энэ нь гажиг үүсэх магадлалыг илтгэнэ. Утга нь 100-д дөхөж байгаа болохоор гажигтай байна гэсэн үг. Графикийн доорх багана нь энд харагдах хэмжигдэхүүний 0.000063634%-ийн бага магадлалтайг харуулж байна.
Та гажиг хайхаас гадна Кибана дээр таамаглалыг ажиллуулж болно. Үүнийг энгийн бөгөөд гажигтай ижил дүр төрхөөр хийдэг - товчлуур таамаглал баруун дээд буланд.
Урьдчилан таамаглалыг дээд тал нь 8 долоо хоногийн өмнө гаргадаг. Хэдийгээр та үнэхээр хүсч байсан ч энэ нь дизайны хувьд боломжгүй болсон.
Зарим тохиолдолд урьдчилсан мэдээ нь жишээлбэл, дэд бүтцэд хэрэглэгчийн ачааллыг хянах үед маш ашигтай байх болно.
Олон хэмжигдэхүүн
Elastic Stack-ийн дараагийн ML функц руу шилжье - нэг багц дахь хэд хэдэн хэмжигдэхүүнд дүн шинжилгээ хийх. Гэхдээ энэ нь нэг хэмжигдэхүүнээс нөгөөгөөс хамаарах хамаарлыг шинжлэх болно гэсэн үг биш юм. Энэ нь Single Metric-тэй адил боловч нэг дэлгэц дээр олон хэмжигдэхүүнтэй бөгөөд нэг дэлгэц дээр үзүүлэх нөлөөллийг хялбархан харьцуулах боломжтой. Бид Хүн амын бүлэгт нэг хэмжигдэхүүнээс нөгөө хэмжигдэхүүнээс хамаарлыг шинжлэх талаар ярих болно.
Multi Metric-тэй дөрвөлжин дээр дарсны дараа тохиргоо бүхий цонх гарч ирнэ. Тэднийг илүү нарийвчлан авч үзье.
Эхлээд та дүн шинжилгээ хийх талбаруудыг сонгох, тэдгээрт өгөгдөл цуглуулах хэрэгтэй. Энд нэгтгэх сонголтууд нь Single Metric (Макс, өндөр дундаж, бага, дундаж, ялгаатай мөн бусад). Цаашилбал, хэрэв хүсвэл өгөгдлийг талбаруудын аль нэгэнд хуваана (талбар Өгөгдлийг хуваах). Жишээн дээр бид үүнийг талбараар хийсэн OriginAirportID. Баруун талд байгаа хэмжүүрийн графикийг олон график хэлбэрээр харуулсан болохыг анхаарна уу.
талбар Гол талбарууд (Нөлөөлөгчид) илэрсэн гажуудалд шууд нөлөөлдөг. Анхдагч байдлаар энд үргэлж дор хаяж нэг утга байх бөгөөд та нэмэлт утгыг нэмж болно. Алгоритм нь дүн шинжилгээ хийх явцад эдгээр талбаруудын нөлөөллийг харгалзан үзэж, хамгийн "нөлөөтэй" утгыг харуулах болно.
Эхлүүлсний дараа Кибана интерфейс дээр үүнтэй төстэй зүйл гарч ирнэ.
Энэ нь гэж нэрлэгддэг зүйл юм талбайн утга тус бүрийн хэвийн бус байдлын дулааны зураг OriginAirportID, бидний заасан Өгөгдлийг хуваах. Single Metric-ийн нэгэн адил өнгө нь хэвийн бус хазайлтын түвшинг илэрхийлдэг. Үүнтэй төстэй дүн шинжилгээ хийх нь тохиромжтой, жишээлбэл, ажлын станцууд дээр сэжигтэй олон тооны зөвшөөрөлтэй хүмүүсийг хянах гэх мэт. Бид аль хэдийн бичсэн
Дулааны газрын зургийн доор гажигуудын жагсаалт байгаа бөгөөд тус бүрээс та нарийвчилсан дүн шинжилгээ хийхийн тулд Нэг хэмжигдэхүүн рүү шилжиж болно.
Хүн ам
Янз бүрийн хэмжигдэхүүнүүдийн хоорондын хамаарлын гажиг хайхын тулд Elastic Stack нь популяцийн тусгай шинжилгээтэй. Үүний тусламжтайгаар та серверийн гүйцэтгэлд бусадтай харьцуулахад хэвийн бус утгыг хайж олох боломжтой, жишээлбэл зорилтот системд хандах хүсэлтийн тоо нэмэгдэхэд.
Энэ зурган дээрх Хүн амын талбар нь дүн шинжилгээ хийсэн хэмжигдэхүүнтэй холбоотой утгыг заана. Энэ тохиолдолд энэ нь үйл явцын нэр юм. Үүний үр дүнд процесс бүрийн процессорын ачаалал бие биедээ хэрхэн нөлөөлсөнийг бид харах болно.
Шинжилсэн өгөгдлийн график нь Single Metric болон Multi Metric-тэй тохиолдлуудаас ялгаатай болохыг анхаарна уу. Шинжилсэн өгөгдлийн утгын тархалтын талаарх ойлголтыг сайжруулах зорилгоор үүнийг Кибана хотод хийсэн.
Графикаас харахад процесс хэвийн бус явагдсан стресс (дашрамд хэлэхэд, тусгай хэрэгслээр үүсгэгдсэн) сервер дээр поипу, энэ гажиг үүсэхэд хэн нөлөөлсөн (эсвэл нөлөөлөгч нь болсон).
Нарийвчилсан
Нарийн тохируулгатай аналитик. Нарийвчилсан шинжилгээгээр Кибана дээр нэмэлт тохиргоо гарч ирнэ. Үүсгэх цэсэн дэх Нарийвчилсан хавтан дээр дарсны дараа энэ цонхтой цонх гарч ирнэ. Таб Ажлын дэлгэрэнгүй мэдээлэл Бид үүнийг санаатайгаар алгассан, дүн шинжилгээ хийхтэй шууд холбоогүй үндсэн тохиргоонууд байдаг.
В хураангуй_тоо_талбарын_нэр Сонголтоор та нэгтгэсэн утгыг агуулсан баримт бичгүүдээс талбарын нэрийг зааж өгч болно. Энэ жишээнд минутанд тохиолдох үйл явдлын тоо. IN
Энд тодорхой даалгаварт гажиг илрүүлэгчийг тохируулах нэмэлт тохиргооны блок байна. Бид дараах нийтлэлүүдэд хэрэглээний тодорхой тохиолдлуудыг (ялангуяа аюулгүй байдлын) хэлэлцэхээр төлөвлөж байна. Жишээлбэл,
талбарт үйл ажиллагаа Та гажиг хайхын тулд тодорхой функцийг сонгож болно. Үүнээс бусад нь ховор, өөр хэд хэдэн сонирхолтой функцүүд байна -
В талбарын нэр дүн шинжилгээ хийх баримт бичгийн талбарыг заана. Талбайн_нэрээр энд заасан баримт бичгийн талбарын тус бүрийн утга тус бүрийн шинжилгээний үр дүнг салгахад ашиглаж болно. Хэрэв та дүүргэх юм бол талбарын_нэр Та бидний дээр дурдсан популяцийн шинжилгээг авах болно. Хэрэв та утгыг зааж өгвөл хуваалтын_талбайн_нэр, дараа нь баримт бичгийн энэ талбарт утга тус бүрээр тусдаа суурь үзүүлэлтүүдийг тооцно (утга нь жишээлбэл, серверийн нэр эсвэл сервер дээрх процесс байж болно). IN байнга_хасах сонгож болно бүх буюу ямар ч, энэ нь байнга тохиолддог баримт бичгийн талбарын утгыг хасах (эсвэл оруулах) гэсэн үг юм.
Энэ нийтлэлд бид Elastic Stack-д машин сурах чадварын талаар аль болох товч санаа өгөхийг хичээсэн бөгөөд тайзны ард маш олон нарийн ширийн зүйлс үлдсэн хэвээр байна. Та Elastic Stack ашиглан ямар тохиолдлуудыг шийдэж чадсан, ямар ажлуудад ашиглаж байгаагаа сэтгэгдэл дээр хэлээрэй. Бидэнтэй холбогдохын тулд та Habré эсвэл дээрх хувийн мессежийг ашиглаж болно
Эх сурвалж: www.habr.com