Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Програм хангамжийн системийн үйлдвэрлэлийн хөгжил нь эцсийн бүтээгдэхүүний алдааг тэсвэрлэх чадварт ихээхэн анхаарал хандуулахаас гадна алдаа гарсан тохиолдолд хурдан хариу үйлдэл үзүүлэхийг шаарддаг. Хяналт нь мэдээжийн хэрэг бүтэлгүйтэл, бүтэлгүйтэлд илүү үр дүнтэй, хурдан хариу өгөхөд тусалдаг боловч хангалттай биш юм. Нэгдүгээрт, олон тооны серверүүдийг хянах нь маш хэцүү байдаг - олон тооны хүмүүс хэрэгтэй. Хоёрдугаарт, та түүний төлөвийг урьдчилан таамаглахын тулд програм хэрхэн ажилладаг талаар сайн ойлголттой байх хэрэгтэй. Тиймээс бидний хөгжүүлж буй систем, тэдгээрийн гүйцэтгэл, онцлог шинж чанаруудын талаар сайн ойлголттой олон хүмүүс хэрэгтэй байна. Хэдийгээр та үүнийг хийх хүсэлтэй хангалттай хүмүүсийг олсон ч тэднийг сургахад маш их цаг хугацаа шаардагдана гэж бодъё.

Юу хийх вэ? Энд л хиймэл оюун ухаан бидэнд туслах болно. Нийтлэлд энэ тухай ярих болно урьдчилан таамаглах засвар үйлчилгээ (урьдчилан таамаглах засвар үйлчилгээ). Энэ арга нь идэвхтэй түгээмэл болж байна. Хабрегийн тухай зэрэг олон тооны нийтлэл бичсэн. Томоохон компаниуд серверийнхээ гүйцэтгэлийг хадгалахын тулд энэ аргыг бүрэн ашигладаг. Олон тооны нийтлэлийг судалсны дараа бид энэ аргыг туршиж үзэхээр шийдсэн. Үүнээс юу гарсан бэ?

Танилцуулга

Хөгжүүлсэн програм хангамжийн систем эрт орой хэзээ нэгэн цагт ашиглалтад ордог. Хэрэглэгчийн хувьд систем алдаагүй ажиллах нь чухал юм. Яаралтай нөхцөл байдал үүссэн тохиолдолд үүнийг хамгийн бага сааталтайгаар шийдвэрлэх хэрэгтэй.

Програм хангамжийн системийн техникийн дэмжлэгийг хялбарчлахын тулд, ялангуяа олон сервер байгаа тохиолдолд ажиллаж байгаа програм хангамжийн системээс хэмжигдэхүүнийг авч, түүний нөхцөл байдлыг оношлох, яг юунаас болж бүтэлгүйтсэнийг тодорхойлоход тусалдаг хяналтын програмуудыг ихэвчлэн ашигладаг. Энэ процессыг програм хангамжийн системийн хяналт гэж нэрлэдэг.

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 1. Grafana хяналтын интерфейс

Хэмжигдэхүүнүүд нь програм хангамжийн систем, түүний ажиллах орчин эсвэл систем ажиллаж байгаа физик компьютерийн янз бүрийн үзүүлэлтүүд бөгөөд хэмжигдэхүүнийг хүлээн авах үеийн цагийн тэмдэгтэй байдаг. Статик шинжилгээнд эдгээр хэмжигдэхүүнийг хугацааны цуваа гэж нэрлэдэг. Програм хангамжийн системийн төлөв байдлыг хянахын тулд хэмжигдэхүүнийг график хэлбэрээр харуулав: цаг нь X тэнхлэгт, утгууд нь Y тэнхлэгийн дагуу байна (Зураг 1). Ажиллаж буй програм хангамжийн системээс (зангилаа бүрээс) хэдэн мянган хэмжүүр авч болно. Эдгээр нь хэмжигдэхүүнүүдийн орон зайг (олон хэмжээст цагийн цуваа) бүрдүүлдэг.

Нарийн төвөгтэй програм хангамжийн системд зориулж олон тооны хэмжүүр цуглуулдаг тул гараар хянах нь хэцүү ажил болдог. Администраторын дүн шинжилгээ хийсэн өгөгдлийн хэмжээг багасгахын тулд хяналтын хэрэгслүүд нь болзошгүй асуудлуудыг автоматаар тодорхойлох хэрэгслүүдийг агуулдаг. Жишээлбэл, та дискний хоосон зай нь заасан босго хэмжээнээс доогуур үед асаах гохыг тохируулж болно. Та мөн сервер унтрах эсвэл үйлчилгээний хурд эгзэгтэй удаашрахыг автоматаар оношлох боломжтой. Практикт хяналтын хэрэгслүүд нь аль хэдийн тохиолдсон алдааг илрүүлэх, эсвэл ирээдүйн бүтэлгүйтлийн энгийн шинж тэмдгүүдийг тодорхойлох сайн ажил хийдэг боловч ерөнхийдөө болзошгүй бүтэлгүйтлийг урьдчилан таамаглах нь тэдний хувьд хагарах хэцүү самар хэвээр байна. Хэмжилтийн гар аргаар дүн шинжилгээ хийх замаар урьдчилан таамаглах нь мэргэшсэн мэргэжилтнүүдийн оролцоог шаарддаг. Энэ нь бүтээмж багатай. Ихэнх болзошгүй бүтэлгүйтэл нь анзаарагдахгүй байж болно.

Сүүлийн үед мэдээллийн технологийн програм хангамж хөгжүүлэлтийн томоохон компаниудын дунд програм хангамжийн системийг урьдчилан таамаглах үйлчилгээ гэж нэрлэгдэх болсон. Энэхүү аргын мөн чанар нь хиймэл оюун ухааныг ашиглан системийн эвдрэлд хүргэж буй асуудлуудыг бүтэлгүйтэхээс нь өмнө эрт үе шатанд олох явдал юм. Энэ арга нь системийг гараар хянахыг бүрэн үгүйсгэхгүй. Энэ нь бүхэлдээ хяналтын үйл явцад туслах хэрэгсэл юм.

Урьдчилан таамаглах засвар үйлчилгээг хэрэгжүүлэх гол хэрэгсэл бол хугацааны цуваа дахь гажиг хайх ажил юм аномали үүсэх үед өгөгдөлд хэсэг хугацааны дараа гарах магадлал өндөр байна бүтэлгүйтэл эсвэл бүтэлгүйтэл байх болно. Аномали гэдэг нь нэг төрлийн хүсэлтийн гүйцэтгэлийн хурд буурах эсвэл үйлчлүүлэгчийн тогтмол түвшинд үйлчилгээ үзүүлсэн хүсэлтийн дундаж тоо буурах зэрэг програм хангамжийн системийн гүйцэтгэлийн тодорхой хазайлт юм.

Програм хангамжийн системийн гажиг хайх ажил нь өөрийн гэсэн онцлогтой. Онолын хувьд програм хангамжийн систем бүрийн хувьд одоо байгаа аргуудыг боловсруулах эсвэл боловсронгуй болгох шаардлагатай байдаг, учир нь гажиг хайх нь түүний гүйцэтгэж буй өгөгдлөөс ихээхэн хамаардаг бөгөөд програм хангамжийн системийн өгөгдөл нь системийг хэрэгжүүлэх хэрэгслээс хамааран ихээхэн ялгаатай байдаг. , ямар компьютер дээр ажиллаж байгаа хүртэл.

Програм хангамжийн системийн эвдрэлийг урьдчилан таамаглах үед гажиг хайх аргууд

Юуны өмнө бүтэлгүйтлийг урьдчилан таамаглах санааг нийтлэлээс санаа авсан гэдгийг хэлэх нь зүйтэй болов уу "Мэдээллийн технологийн хяналт дахь машин сургалт". Аномалийг автоматаар хайх аргын үр нөлөөг шалгахын тулд NPO Krista компанийн төслүүдийн нэг болох Web-Consolidation програм хангамжийн системийг сонгосон. Өмнө нь хүлээн авсан хэмжүүр дээр үндэслэн гар хяналтыг хийдэг байсан. Систем нь нэлээд төвөгтэй тул олон тооны хэмжүүрүүдийг авдаг: JVM үзүүлэлтүүд (хог цуглуулагч ачаалал), кодыг ажиллуулж буй үйлдлийн системийн үзүүлэлтүүд (виртуал санах ой, үйлдлийн системийн CPU ачаалал%), сүлжээний үзүүлэлтүүд (сүлжээний ачаалал). ), сервер өөрөө (CPU ачаалал , санах ой), wildfly хэмжигдэхүүнүүд болон бүх чухал дэд системүүдэд зориулсан програмын өөрийн хэмжүүрүүд.

Бүх хэмжигдэхүүнийг графит ашиглан системээс авдаг. Эхэндээ шивнээ мэдээллийн санг графанагийн стандарт шийдэл болгон ашигладаг байсан боловч үйлчлүүлэгчийн бааз томрох тусам графит нь DC дискний дэд системийн хүчин чадлыг шавхаж, даван туулахаа больсон. Үүний дараа илүү үр дүнтэй шийдлийг олохоор шийдсэн. Сонголтыг эерэгээр хийсэн бал чулуу+кликхаус, энэ нь дискний дэд системийн ачааллыг дарааллаар нь багасгаж, эзэлсэн дискний зайг таваас зургаа дахин багасгах боломжийг олгосон. Бал чулуу+кликхаус ашиглан хэмжигдэхүүнийг цуглуулах механизмын диаграммыг доор үзүүлэв (Зураг 2).

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 2. Хэмжилтийг цуглуулах схем

Диаграммыг дотоод баримтаас авсан болно. Энэ нь графана (бидний ашигладаг хяналтын UI) болон бал чулуу хоорондын холбоог харуулдаг. Програмаас хэмжигдэхүүнийг устгах нь тусдаа програм хангамжаар хийгддэг - jmxtrans. Тэр тэдгээрийг бал чулуунд хийдэг.
Вэб нэгтгэлийн систем нь алдааг урьдчилан таамаглахад асуудал үүсгэдэг хэд хэдэн онцлог шинж чанартай:

  1. Тренд нь ихэвчлэн өөрчлөгддөг. Энэхүү програм хангамжийн системийн янз бүрийн хувилбарууд байдаг. Тэд тус бүр нь системийн програм хангамжийн хэсэгт өөрчлөлт оруулдаг. Ийм байдлаар хөгжүүлэгчид тухайн системийн хэмжүүрт шууд нөлөөлж, чиг хандлагын өөрчлөлтийг үүсгэж болно;
  2. хэрэгжилтийн онцлог, түүнчлэн үйлчлүүлэгчид энэ системийг ашиглах зорилго нь ихэвчлэн өмнөх доройтолгүйгээр хэвийн бус байдлыг үүсгэдэг;
  3. бүх өгөгдлийн багцтай харьцуулахад гажигийн хувь бага байна (< 5%);
  4. Системээс шалгуур үзүүлэлтийг хүлээн авахад цоорхой байж болно. Зарим богино хугацаанд хяналтын систем нь хэмжүүр авч чадахгүй байна. Жишээлбэл, сервер хэт ачаалалтай байвал. Энэ нь мэдрэлийн сүлжээг сургахад маш чухал юм. Цоорхойг синтетик аргаар дүүргэх шаардлагатай байна;
  5. Аномалитай тохиолдлууд нь зөвхөн тодорхой огноо/сар/цаг (улирлын шинж чанар)-тай холбоотой байдаг. Энэхүү систем нь хэрэглэгчдэд хэрэглэх тодорхой зохицуулалттай. Үүний дагуу хэмжүүрүүд нь зөвхөн тодорхой хугацаанд хамааралтай болно. Системийг байнга ашиглах боломжгүй, гэхдээ зөвхөн хэдэн сараар: жилээс хамааран сонгон ашиглах боломжтой. Нэг тохиолдолд хэмжүүрийн ижил үйлдэл нь програм хангамжийн системийн доголдолд хүргэж болох боловч нөгөө тохиолдолд тийм биш байх үед нөхцөл байдал үүсдэг.
    Эхлэхийн тулд програм хангамжийн системийн мониторингийн өгөгдөлд гажиг илрүүлэх аргуудад дүн шинжилгээ хийсэн. Энэ сэдвийн талаархи нийтлэлүүдэд, бусад өгөгдлийн багцтай харьцуулахад хэвийн бус байдлын хувь бага байгаа тохиолдолд мэдрэлийн сүлжээг ашиглахыг ихэвчлэн санал болгодог.

Мэдрэлийн сүлжээний өгөгдлийг ашиглан гажиг хайх үндсэн логикийг Зураг 3-т үзүүлэв.

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 3. Мэдрэлийн сүлжээ ашиглан аномали хайх

Одоогийн хэмжүүрийн урсгалын цонхыг урьдчилан таамаглах эсвэл сэргээх үр дүнд үндэслэн ажиллаж байгаа програм хангамжийн системээс хүлээн авсан хазайлтыг тооцоолно. Хэрэв програм хангамжийн систем болон мэдрэлийн сүлжээнээс олж авсан хэмжүүрүүдийн хооронд ихээхэн ялгаа байгаа бол одоогийн өгөгдлийн сегмент нь хэвийн бус байна гэж дүгнэж болно. Мэдрэлийн сүлжээг ашиглахад дараахь цуврал асуудлууд гарч ирдэг.

  1. урсгал горимд зөв ажиллахын тулд мэдрэлийн сүлжээний загварыг сургах өгөгдөл нь зөвхөн "хэвийн" өгөгдлийг агуулсан байх ёстой;
  2. зөв илрүүлэхийн тулд хамгийн сүүлийн үеийн загвартай байх шаардлагатай. Хэмжилтийн чиг хандлага, улирлын шинж чанарыг өөрчлөх нь загварт олон тооны худал эерэг үр дүнд хүргэж болзошгүй юм. Үүнийг шинэчлэхийн тулд загвар нь хуучирсан цагийг тодорхой тодорхойлох шаардлагатай. Хэрэв та загвараа хожим эсвэл эрт шинэчилсэн бол олон тооны хуурамч эерэг үр дүн гарах болно.
    Хуурамч эерэг үр дагаврыг байнга илрүүлэх, урьдчилан сэргийлэх талаар бид мартаж болохгүй. Тэд онцгой байдлын үед ихэвчлэн тохиолддог гэж үздэг. Гэсэн хэдий ч эдгээр нь хангалтгүй сургалтаас болж мэдрэлийн сүлжээний алдааны үр дагавар байж болно. Загварын хуурамч эерэг тоог багасгах шаардлагатай. Үгүй бол буруу таамаглал нь системийг шалгахын тулд администраторын маш их цагийг үрэх болно. Эрт орой хэзээ нэгэн цагт админ "параноид" хяналтын системд хариу өгөхөө болино.

Давтагдах мэдрэлийн сүлжээ

Хугацааны цувааны гажиг илрүүлэхийн тулд та ашиглаж болно давтагдах мэдрэлийн сүлжээ LSTM санах ойтой. Цорын ганц асуудал бол үүнийг зөвхөн урьдчилан таамагласан хугацааны цувралд ашиглах боломжтой юм. Манай тохиолдолд бүх хэмжүүрийг урьдчилан таамаглах боломжгүй юм. RNN LSTM-ийг цаг хугацааны цувралд хэрэглэх оролдлогыг Зураг 4-т үзүүлэв.

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 4. LSTM санах ойн эсүүдтэй давтагдах мэдрэлийн сүлжээний жишээ

Зураг 4-ээс харахад RNN LSTM нь энэ хугацаанд гажиг хайх ажлыг даван туулж чадсан. Үр дүн нь урьдчилан таамаглах өндөр алдаатай (дундаж алдаа) үзүүлэлтүүдэд гажиг үнэхээр гарсан байна. Цөөн тооны хэмжигдэхүүнд хамаарах тул ганц RNN LSTM ашиглах нь хангалтгүй байх нь тодорхой. Аномали хайхад туслах арга болгон ашиглаж болно.

Алдааг урьдчилан таамаглах автомат кодлогч

Автомат кодлогч - үндсэндээ хиймэл мэдрэлийн сүлжээ. Оролтын давхарга нь кодлогч, гаралтын давхарга нь декодер юм. Энэ төрлийн бүх мэдрэлийн сүлжээнүүдийн сул тал нь хэвийн бус байдлыг сайн нутагшуулж чаддаггүй явдал юм. Синхрон автомат кодлогчийн архитектурыг сонгосон.

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 5. Автомат кодлогчийн ажиллагааны жишээ

Автокодлогчдыг ердийн өгөгдөл дээр сургаж, дараа нь загварт оруулсан өгөгдөлд ямар нэгэн хэвийн бус зүйлийг олдог. Энэ даалгаварт хэрэгтэй зүйл. Энэ ажилд аль автомат кодлогч тохирохыг сонгох л үлдлээ. Автомат кодлогчийн архитектурын хувьд хамгийн энгийн хэлбэр нь урагшлах, буцдаггүй мэдрэлийн сүлжээ бөгөөд энэ нь үүнтэй маш төстэй юм. олон давхаргат перцептрон (олон давхаргат перцептрон, MLP), оролтын давхарга, гаралтын давхарга, тэдгээрийг холбосон нэг буюу хэд хэдэн далд давхаргатай.
Гэсэн хэдий ч автомат кодлогч ба MLP-ийн ялгаа нь автомат кодлогчийн хувьд гаралтын давхарга нь оролтын давхаргатай ижил тооны зангилаатай байдаг бөгөөд X оролтын өгөгдсөн зорилтот утгыг урьдчилан таамаглахад сургагдахын оронд автомат кодлогчийг сургадаг. өөрийн X-ийг дахин бүтээх.Тиймээс Автокодерууд нь хяналтгүй суралцах загварууд юм.

Автокодерлогчийн үүрэг бол оролтын вектор X дахь хэвийн бус элементүүдэд харгалзах r0 ... rn цагийн индексүүдийг олох явдал юм. Энэ нөлөөг квадрат алдааг хайж олоход гүйцэтгэдэг.

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 6. Синхрон автомат кодлогч

Автомат кодлогчийн хувьд сонгосон синхрон архитектур. Үүний давуу тал: урсгал боловсруулах горимыг ашиглах чадвар, бусад архитектуртай харьцуулахад харьцангуй бага тооны мэдрэлийн сүлжээний параметрүүд.

Хуурамч эерэг үр дүнг багасгах механизм

Төрөл бүрийн хэвийн бус нөхцөл байдал үүсч, мэдрэлийн сүлжээг хангалтгүй сургаж болзошгүй нөхцөл байдлаас шалтгаалан гажиг илрүүлэх загварыг боловсруулж байгаа тул хуурамч эерэг үр дүнг багасгах механизмыг боловсруулах шаардлагатай гэж үзсэн. Энэ механизм нь администраторын ангилсан загвар суурь дээр суурилдаг.

Динамик цаг хугацааны өөрчлөлтийн алгоритм (DTW алгоритм, англи хэлний динамик цагийн гажуудал) нь цаг хугацааны дарааллын хоорондох оновчтой харьцах харьцааг олох боломжийг танд олгоно. Яриа танихад анх ашигласан: хоёр ярианы дохио нь ижил ярианы хэллэгийг хэрхэн төлөөлж байгааг тодорхойлоход хэрэглэгддэг. Дараа нь бусад бүс нутгуудад өргөдөл гаргажээ.

Хуурамч эерэг үр дүнг багасгах гол зарчим бол мэдрэлийн сүлжээ ашиглан илрүүлсэн сэжигтэй тохиолдлыг ангилах операторын тусламжтайгаар стандартын мэдээллийн санг цуглуулах явдал юм. Дараа нь ангилсан стандартыг систем илрүүлсэн тохиолдолтой харьцуулж, уг хэрэг худал эсвэл бүтэлгүйтэлд хүргэсэн эсэх талаар дүгнэлт гаргана. DTW алгоритмыг хоёр цаг хугацааны цувааг харьцуулахдаа нарийн ашигладаг. Багасгах гол хэрэгсэл нь ангилал хэвээр байна. Олон тооны лавлагааны хэргийг цуглуулсны дараа систем ихэнх тохиолдлууд ижил төстэй, ижил төстэй тохиолдол гардаг тул оператороос бага асууж эхлэх төлөвтэй байна.

Үүний үр дүнд дээр дурдсан мэдрэлийн сүлжээний аргууд дээр үндэслэн "Вэб-Нэгдлийн" системийн бүтэлгүйтлийг урьдчилан таамаглах туршилтын программыг бүтээсэн. Энэхүү хөтөлбөрийн зорилго нь одоо байгаа мониторингийн өгөгдөл, өмнөх алдааны талаарх мэдээллийг ашиглан манай програм хангамжийн системд энэ хандлагын чадварыг үнэлэх явдал байв. Хөтөлбөрийн схемийг 7-р зурагт доор үзүүлэв.

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 7. Метрийн орон зайн шинжилгээнд үндэслэсэн бүтэлгүйтлийг урьдчилан таамаглах схем

Диаграммд хоёр үндсэн блокийг ялгаж салгаж болно: мониторингийн мэдээллийн урсгал (хэмжих) дахь хэвийн бус хугацааг хайх, хуурамч эерэг үр дүнг багасгах механизм. Тайлбар: Туршилтын зорилгоор өгөгдлийг JDBC холболтоор графит хадгалах мэдээллийн сангаас авдаг.
Хөгжлийн үр дүнд олж авсан хяналтын системийн интерфейсийг доор харуулав (Зураг 8).

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 8. Туршилтын хяналтын системийн интерфейс

Интерфэйс нь хүлээн авсан хэмжигдэхүүн дээр тулгуурлан хэвийн бус байдлын хувийг харуулдаг. Манай тохиолдолд төлбөрийн баримтыг дуурайлган хийдэг. Бидэнд хэдэн долоо хоногийн турш бүх өгөгдөл байгаа бөгөөд алдаа гарахад хүргэдэг гажиг тохиолдлыг шалгахын тулд аажмаар ачаалж байна. Доод төлөвийн талбар нь тухайн цаг үеийн өгөгдлийн хэвийн бус байдлын нийт хувийг харуулдаг бөгөөд үүнийг автомат кодлогч ашиглан тодорхойлдог. Мөн RNN LSTM-ээр тооцоолсон урьдчилан тооцоолсон хэмжүүрүүдийн хувьд тусдаа хувийг харуулдаг.

RNN LSTM мэдрэлийн сүлжээг ашиглан CPU-ийн гүйцэтгэлд суурилсан гажиг илрүүлэх жишээ (Зураг 9).

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 9. RNN LSTM нээлт

RNN LSTM ашиглан системийн доголдолд хүргэдэг нэлээн энгийн тохиолдлыг амжилттай тооцоолсон. Энэ хугацааны гажиг үзүүлэлт нь 85-95%, 80% -иас дээш гарсан бүх зүйлийг (босгыг туршилтаар тодорхойлсон) аномали гэж үзнэ.
Шинэчлэлт хийсний дараа систем ачаалах боломжгүй үед гажиг илрүүлэх жишээ. Энэ нөхцөл байдлыг автомат кодлогч илрүүлдэг (Зураг 10).

Бид мэдрэлийн сүлжээг ашиглан хэвийн бус байдлыг хайж, бүтэлгүйтлийг урьдчилан таамаглаж байна

Зураг 10. Автокодер илрүүлэх жишээ

Зураг дээрээс харахад PermGen нэг түвшинд гацсан байна. Автомат кодлогч өмнө нь ийм зүйлийг хэзээ ч харж байгаагүй учраас хачирхалтай санагдав. Энд систем ажиллах төлөв рүү буцах хүртэл гажиг 100% хэвээр байна. Бүх хэмжигдэхүүнд гажиг харагдана. Өмнө дурьдсанчлан, автомат кодлогч нь гажуудлыг нутагшуулж чадахгүй. Эдгээр нөхцөл байдалд оператор энэ функцийг гүйцэтгэхийг дууддаг.

дүгнэлт

"Вэб нэгтгэх" компьютерийг хэдэн жилийн турш хөгжүүлж байна. Систем нь нэлээд тогтвортой байдалд байгаа бөгөөд бүртгэгдсэн ослын тоо бага байна. Гэсэн хэдий ч алдаа гарахаас 5 - 10 минутын өмнө бүтэлгүйтэлд хүргэдэг гажиг илрүүлэх боломжтой байв. Зарим тохиолдолд эвдрэлийн талаар урьдчилан мэдэгдэх нь "засварын" ажилд хуваарилагдсан хуваарьт цагийг хэмнэхэд тусалдаг.

Туршилтанд үндэслэн эцсийн дүгнэлт гаргахад эрт байна. Одоогоор үр дүн нь хоорондоо зөрчилдөж байна. Нэг талаас, мэдрэлийн сүлжээнд суурилсан алгоритмууд нь "ашигтай" гажуудлыг олох чадвартай байдаг нь тодорхой юм. Нөгөөтэйгүүр, хуурамч эерэг үзүүлэлтүүдийн дийлэнх хувь нь хэвээр байгаа бөгөөд мэдрэлийн сүлжээнд мэргэшсэн мэргэжилтэн илрүүлсэн бүх гажигийг илрүүлж чадахгүй. Сул тал нь одоо мэдрэлийн сүлжээ нь хэвийн ажиллахын тулд багштай сургалт явуулах шаардлагатай болсон явдал юм.

Алдааг урьдчилан таамаглах системийг цаашид хөгжүүлж, сэтгэл хангалуун байдалд хүргэхийн тулд хэд хэдэн арга замыг төлөвлөж болно. Энэ нь системийн төлөв байдалд ихээхэн нөлөөлдөг чухал хэмжигдэхүүнүүдийн жагсаалтад нэмж, түүнд нөлөөлөхгүй шаардлагагүй зүйлсийг хаяснаас болж бүтэлгүйтэлд хүргэдэг гажигтай тохиолдлуудын илүү нарийвчилсан дүн шинжилгээ юм. Түүнчлэн, хэрэв бид энэ чиглэлд шилжих юм бол алдаа гаргахад хүргэдэг гажигтай тохиолдлуудад тусгайлан алгоритмуудыг мэргэшүүлэх оролдлого хийж болно. Өөр арга бий. Энэ нь мэдрэлийн сүлжээний архитектурыг сайжруулж, сургалтын цагийг багасгаснаар илрүүлэх нарийвчлалыг нэмэгдүүлж байгаа юм.

Энэ нийтлэлийг бичиж, хадгалахад тусалсан хамт олондоо би талархаж байгаагаа илэрхийлж байна. Виктор Вербицкий болон Сергей Финогенов.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх