Slurm: Caterpillar эрвээхэй болж хувирав

Slurm: Caterpillar эрвээхэй болж хувирав

  1. Slurm нь үнэхээр Kubernetes сэдэвт орох эсвэл мэдлэгээ сайжруулах боломжийг олгодог.
  2. Оролцогчид баяртай байна. Шинэ зүйл сураагүй, асуудлаа шийдээгүй хүн цөөхөн байна. Эхний өдрийн болзолгүй мөнгө буцааж (“Хэрэв та Slurm танд тохиромжгүй гэж үзвэл бид тасалбарын үнийг бүхэлд нь буцаан олгоно”) зөвхөн нэг хүн ашигласан нь түүний хүч чадлыг хэт үнэлснийг зөвтгөв.
  3. Дараагийн Slurm есдүгээр сарын эхээр Санкт-Петербургт болно. Манай байнгын ивээн тэтгэгч Selectel нь лангууны үүл төдийгүй өөрийн хурлын танхимаар хангадаг.
  4. Бид үндсэн Slurm-ийг (9-р сарын 11-4) давтаж, DevOps Slurm (6-р сарын XNUMX-XNUMX) шинэ хөтөлбөрийг танилцуулж байна.

Slurm гэж юу вэ, энэ нь хэрхэн өөрчлөгдсөн бэ?

Жилийн өмнө бид Кубернетес дээр сургалт явуулах санааг олсон. '18 оны 1-р сард Slurm-XNUMX болсон: хэцүү, тасралтгүй илтгэлтэй (тайзан дээр илтгэл дуусах үед), өдөр тутмын олон асуудалтай. Туршилтууд нэгддэг: Бөгжний нөхөрлөл шиг анхны Slurm-д оролцогчид хоорондоо харилцдаг хэвээр байна.

Slurm: Caterpillar эрвээхэй болж хувирав
Slurm-1 иймэрхүү харагдаж байв

Анхны Slurm дээр MegaSlurm барих санаа төрсөн. Хүмүүсээс ямар сэдвээр сонирхож байгааг нь асууж, 19-р сард “Оролцогчдын хүсэлтээр” ахисан түвшний сургалт явуулсан. Энэ нь сонирхолтой, гэхдээ нэг удаагийн арга хэмжээ болсон. XNUMX-р сарын XNUMX гэхэд бид өөрийн гэсэн логик, дотоод түүхтэй жинхэнэ ахисан түвшний сургалтыг бэлтгэсэн.

Жилийн туршид Slurm зохион байгуулалтын хувьд өөрчлөгдсөн:
— Докер болон Анисбл нарыг үндсэн хөтөлбөрөөс хасч, тусдаа онлайн курс хийсэн.
- Суралцагчдад сургалтын кластерийн асуудлыг шийдвэрлэхэд тусалдаг зохион байгуулалттай техникийн дэмжлэг.
- Илтгэгчид арга зүйн дэмжлэгтэй боллоо.

Slurm: Caterpillar эрвээхэй болж хувирав
Slurm 4-ийг бүтээсэн баг

Оролцогчдын санал хүсэлт

Өөр нэг дээд амжилт тогтоов: үндсэн Slurm дээр 170 оролцогч, MegaSlurm дээр 75 оролцогч.

Slurm: Caterpillar эрвээхэй болж хувирав

Зуурмаг-4
Санал хүсэлтийн маягтыг 101 хүнээс 170 нь бөглөсөн.

Кубернетес тодорхой болсон уу?
41 - Би одоохондоо k8-ийг ойлгохгүй байна, гэхдээ би хаана ухахаа харж байна.
36 - Би өмнө нь k8s мэддэггүй байсан, гэхдээ одоо би үүнийг ойлгосон.
23 — Би өмнө нь k8 мэддэг байсан бол одоо илүү сайн мэддэг болсон.
1 - Би шинэ зүйл сураагүй.
0 - Би k8-ийн талаар юу ч ойлгосонгүй.

Танд Slurm-ийн эрч хүч хэр таалагдаж байна вэ?

16 хүн Slurm-ийг хэтэрхий амархан, удаан гэж, 14 хүн хэтэрхий хэцүү, хурдан гэж боддог. Үлдсэн хэсэгт нь яг тохирно.

Та Slurm руу явах гэж байсан асуудлаа шийдсэн үү?

90 - Тийм ээ.
11 - Үгүй.

MegaSlurm

Санал хүсэлтийн маягтыг 40 хүн бөглөсөн. 2 хүн хэтэрхий амархан, удаан гэж хэлсэн. 1 хүн Мега руу явж байсан асуудлаа шийдээгүй. Бусад нь зүгээр.

https://serveradmin.ru дээрх Slurm-ийн тойм

Илтгэгчийн тойм

Slurm: Caterpillar эрвээхэй болж хувирав

Хэрэв XNUMX-р сард Санкт-Петербургийн Slurm дээр ихэвчлэн анхлан суралцагчид байсан бол Москвагийн Slurm-д олон тооны хүмүүс аль хэдийн Кубернетесийг туршиж үзсэн байв. Таныг бодоход хүргэсэн ахисан түвшний асуултууд зөндөө байсан.

Хэрэв Санкт-Петербургт тэд бидний сэрээ кубэспрейг хэзээ хэвлэх вэ гэж асуусан бол Москвад тэд яагаад сэрээгээ ашиглахыг санал болгож, анхны kubespray-ийг авахгүй байхыг санал болгосныг аль хэдийн асуусан. Энэ бол аль хэдийн дунд насныхны шүүмжлэлтэй сэтгэлгээ юм.

Дасгал хийхэд хэцүү байсан, хүмүүс маш их алдаа гаргасан, энэ нь гайхалтай: та тулалдаанд биш, харин сурч байхдаа алдаа гаргах хэрэгтэй.

Бид гэрчилгээ авахад хязгаарлалт, Github-аас татаж авах хязгаарлалт гэх мэт байнга тулгардаг. Энэ бол амьдрал - бид Selectel үүлэнд 200 орчим кластерыг нэгэн зэрэг байршуулсан. Үүнд хэн ч нөөц бололцоо, хязгаараа бэлддэггүй.

Selectel дахь Slurm-ийн зарлал

Slurm-5-ын бүртгэл
Үнэ: 25₽

Програм:

Сэдэв №1: Kubernetes-ийн танилцуулга, үндсэн бүрэлдэхүүн хэсгүүд
— k8s технологийн танилцуулга. Тодорхойлолт, хэрэглээ, ойлголт
— Pod, ReplicaSet, Байршил, Үйлчилгээ, Ingress, PV, PVC, ConfigMap, Secret

Сэдэв No2: Кластерын дизайн, үндсэн бүрэлдэхүүн хэсгүүд, алдааг тэсвэрлэх чадвар, k8s сүлжээ
— Кластерийн дизайн, үндсэн бүрэлдэхүүн хэсгүүд, эвдрэлийг тэсвэрлэх чадвар
- k8s сүлжээ

Сэдэв №3: Kubespray, тааруулах, Kubernetes кластерийг тохируулах
— Kubespray, Kubernetes кластерын тохиргоо, тааруулах

Сэдэв №4: Нарийвчилсан Kubernetes хийсвэрлэл
- DaemonSet, StatefulSet, RBAC, Job, CronJob, Pod Scheduling, InitContainer

Сэдэв No5: Хэвлэлийн үйлчилгээ, програмууд
— Үйлчилгээний нийтлэх аргуудын тойм: NodePort vs LoadBalancer vs Ingress
— Оролтын хянагч (Nginx): ирж буй урсгалыг тэнцвэржүүлэх
— Серт-менежер: SSL/TLS гэрчилгээг автоматаар авах

Сэдэв №6: Дуулганы тухай танилцуулга

Сэдэв №7: Cert-manager суулгах

Сэдэв №8: Цеф: "Миний хийдэг шиг хий" суулгац

Сэдэв No9: Мод бэлтгэх, хянах
- Кластерын хяналт, Прометей
— Cluster logging, Fluentd/Elastic/Kibana

Сэдэв №10: Кластерын шинэчлэл

Сэдэв No11: Практик ажил, хэрэглээний докержуулалт, кластерт ажиллуулах

stepik.org дээрх Docker болон Ansible дээрх курсууд үнэд багтсан болно.

Slurm DevOps-ийн бүртгэл
Үнэ: 45₽

Програм:

Сэдэв №1: Git-ийн танилцуулга
— git init, commit, add, diff, log, status, pull, push гэсэн үндсэн командууд
— Орон нутгийн орчныг бүрдүүлэх: практик зөвлөмж
— Git урсгал, салбарууд болон шошго, нэгтгэх стратеги
- Олон тооны алсын репотой ажиллах

Сэдэв №2: Git-тэй хамтран ажиллах
- GitHub урсгал
- Сэрээ, арилгах, татах хүсэлт
- Зөрчилдөөн, хувилбарууд, Gitflow болон багуудтай холбоотой бусад урсгалуудын талаар дахин нэг удаа

Сэдэв №3: Автоматжуулалтын CI/CD-ийн танилцуулга
— Гит дэх автоматжуулалт (ботууд, CI-ийн танилцуулга, дэгээ)
- Хэрэгсэл (bash, make, gradle)
— Үйлдвэрийн угсрах шугам ба тэдгээрийг мэдээллийн технологид ашиглах

Сэдэв №4: CI/CD: Gitlab-тай ажиллах
— Барилга, турших, байршуулах
— Үе шат, хувьсагч, гүйцэтгэлийн хяналт (зөвхөн, хэзээ, оруулах)

Сэдэв No5: Програмтай хөгжүүлэлтийн үүднээс ажиллах
- Бид Python дээр бичил үйлчилгээ бичдэг (тест орно)
— Хөгжүүлэхдээ docker-compose програмыг ашиглах

Сэдэв №6: Дэд бүтэц нь код
— IaC: дэд бүтцэд код болгон хандах
- Терраформыг жишээ болгон ашиглаж байгаа IaC
- IaC нь Ansible-г жишээ болгон ашиглаж байна
- Чадваргүй байдал, тунхаглал
— Ansible тоглоомын ном бүтээх дадлага хий
— Тохиргооны хадгалалт, хамтын ажиллагаа, хэрэглээний автоматжуулалт

Сэдэв No7: Дэд бүтцийн туршилт
— Молекул болон Gitlab CI-тэй туршилт хийж, тасралтгүй нэгтгэх

Сэдэв No8: Серверийг өсгөх автоматжуулалт
- Зураг цуглуулах
- PXE болон DHCP

Сэдэв No9: Дэд бүтцийн автоматжуулалт
— Сервер дээр зөвшөөрөл олгох дэд бүтцийн үйлчилгээний жишээ
— ChatOps (шуурхай мессенжерүүдийг дамжуулах хоолойтой нэгтгэх)

Сэдэв №10: Хамгаалалтын автоматжуулалт
- CI/CD олдворуудад гарын үсэг зурах
- Эмзэг байдлын сканнер

Сэдэв №11: Хяналт шинжилгээ
— SRE-ийн ертөнцөөс SLA, SLO, Error Budget болон бусад аймшигтай нэр томъёоны тодорхойлолт
— SRE: SLI ба SLO хяналтын практик
— SRE: Error Budget ашиглах дадлага
- SRE: Тасалдал ба үйл ажиллагааны ачааллыг удирдах (хоолойн зам, үйлчилгээний тор, таслуур)
- Дамжуулах хоолой, хөгжлийн хэмжүүрийг хянах

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх