Gyártási készenléti ellenőrző lista

A cikk fordítása kifejezetten a kurzus hallgatói számára készült "DevOps gyakorlatok és eszközök", ami ma kezdődik!

Gyártási készenléti ellenőrző lista

Kiadott már új szolgáltatást a gyártásban? Vagy esetleg részt vett az ilyen szolgáltatások támogatásában? Ha igen, mi motivált? Mi a jó a termelésnek és mi a rossz? Hogyan képezheti ki az új csapattagokat a meglévő szolgáltatások kiadására vagy karbantartására.

A legtöbb vállalat végül a „vadnyugati” megközelítést alkalmazza, amikor az ipari működési gyakorlatokról van szó. Minden csapat próba és hiba útján dönt saját eszközeiről és bevált gyakorlatairól. De ez gyakran nemcsak a projektek sikerét érinti, hanem a mérnököket is.

A próba és hiba olyan környezetet teremt, ahol gyakori az ujjal mutogatás és a hibáztatás. Ezzel a viselkedéssel egyre nehezebb tanulni a hibákból, és nem ismételni azokat.

Sikeres szervezetek:

  • felismeri a termelési irányelvek szükségességét,
  • a legjobb gyakorlatok tanulmányozása,
  • megbeszéléseket kezdeni a gyártási készenléti kérdésekről új rendszerek vagy alkatrészek fejlesztésekor,
  • gondoskodni a gyártásra való felkészülés szabályainak betartásáról.

A gyártás előkészítése egy „felülvizsgálati” folyamatot tartalmaz. Az áttekintés lehet ellenőrző lista vagy kérdéscsoport formájában. A felülvizsgálat történhet manuálisan, automatikusan vagy mindkettőn. Statikus követelménylisták helyett konkrét igényekhez igazítható ellenőrzőlista sablonokat is készíthet. Így a mérnökök lehetőséget kapnak a tudás és a kellő rugalmasság örökölésére, ha szükséges.

Mikor kell ellenőrizni egy szolgáltatás gyártási készségét?

Hasznos a gyártási készenléti ellenőrzést nemcsak közvetlenül a kiadás előtt, hanem akkor is, ha egy másik műveleti csoporthoz vagy új alkalmazotthoz adjuk át.

Ellenőrizze, hogy mikor:

  • Ön egy új szolgáltatást ad termelésbe.
  • A termelési szolgáltatás működését átadja egy másik csapatnak, például az SRE-nek.
  • Ön átadja a termelési szolgáltatás működését új alkalmazottaknak.
  • Műszaki támogatás megszervezése.

Gyártási készenléti ellenőrző lista

Néhány évvel ezelőtt például én közzétett ellenőrző lista a gyártási készenlét teszteléséhez. Bár ez a lista a Google Cloud ügyfeleitől származik, hasznos és alkalmazható lesz a Google Cloudon kívül is.

Tervezés és fejlesztés

  • Olyan megismételhető összeállítási folyamat kidolgozása, amely nem igényel hozzáférést külső szolgáltatásokhoz, és nem függ a külső rendszerek meghibásodásától.
  • A tervezési és fejlesztési időszakban határozza meg és állítsa be a szolgáltatásaihoz tartozó SLO-kat.
  • Dokumentálja a külső szolgáltatások elérhetőségére vonatkozó elvárásokat, amelyektől függ.
  • Egyetlen globális erőforrástól való függőségek eltávolításával elkerülheti az egyetlen hibapontot. Replikálja az erőforrást, vagy használjon tartalékot, ha az erőforrás nem érhető el (például egy kemény kódolt érték).

Konfiguráció-menedzsment

  • Statikus, kicsi és nem titkos konfiguráció adható át parancssori paramétereken keresztül. Minden máshoz használja a konfigurációs tárolási szolgáltatásokat.
  • A dinamikus konfigurációnak tartalékbeállításokkal kell rendelkeznie arra az esetre, ha a konfigurációs szolgáltatás nem érhető el.
  • A fejlesztői környezet konfigurációja nem kapcsolódhat az éles konfigurációhoz. Ellenkező esetben ez a fejlesztői környezetből az éles szolgáltatásokhoz való hozzáféréshez vezethet, ami adatvédelmi problémákat és adatszivárgást okozhat.
  • Dokumentálja, hogy mi konfigurálható dinamikusan, és írja le a tartalék viselkedést, ha a konfigurációs szolgáltató rendszer nem érhető el.

Kiadáskezelés

  • Dokumentálja részletesen a kiadási folyamatot. Mutassa be, hogy a kiadások hogyan befolyásolják az SLO-kat (például a késleltetés átmeneti növekedése a gyorsítótár kihagyása miatt).
  • Dokumentálja a kanári kiadásokat.
  • Készítsen egy kanári kibocsátás felülvizsgálati tervet, és ha lehetséges, automatikus visszaállítási mechanizmusokat.
  • Győződjön meg arról, hogy a visszagörgetések ugyanazokat a folyamatokat használhatják, mint a központi telepítések.

Megfigyelhetőség

  • Győződjön meg arról, hogy az SLO-hoz szükséges mérőszámok összegyűjtése megtörtént.
  • Győződjön meg arról, hogy különbséget tud tenni a kliens és a szerver adatai között. Ez fontos a meghibásodások okainak feltárásához.
  • Állítson be riasztásokat a munkaerőköltségek csökkentése érdekében. Például távolítsa el a rutinműveletek által okozott riasztásokat.
  • Ha Stackdrivert használ, vegye fel a GCP-platform mérőszámait az irányítópultra. Riasztások beállítása a GCP-függőségekhez.
  • Mindig terjessze a bejövő nyomokat. Még ha nem is vesz részt a nyomon követésben, ez lehetővé teszi az alacsonyabb szintű szolgáltatások számára a termelési problémák hibakeresését.

Védelem és biztonság

  • Győződjön meg arról, hogy minden külső kapcsolat titkosítva van.
  • Győződjön meg arról, hogy éles projektjei a megfelelő IAM-beállítással rendelkeznek.
  • Használjon hálózatokat a virtuálisgép-példányok csoportjainak elkülönítésére.
  • Használjon VPN-t a távoli hálózatokhoz való biztonságos csatlakozáshoz.
  • Dokumentálja és figyelje a felhasználók hozzáférését az adatokhoz. Győződjön meg arról, hogy minden felhasználói hozzáférést az adatokhoz auditálnak és naplóznak.
  • Győződjön meg arról, hogy a hibakeresési végpontokat az ACL-ek korlátozzák.
  • A felhasználói bevitel megtisztítása. Konfigurálja a hasznos teher méretkorlátait a felhasználói bevitelhez.
  • Győződjön meg arról, hogy szolgáltatása szelektíven blokkolja a bejövő forgalmat az egyes felhasználók számára. Ez blokkolja a jogsértéseket anélkül, hogy ez más felhasználókat érintene.
  • Kerülje a külső végpontokat, amelyek sok belső műveletet kezdeményeznek.

Kapacitás tervezés

  • Dokumentálja, hogyan terjed a szolgáltatása. Például: a felhasználók száma, a bejövő rakomány mérete, a bejövő üzenetek száma.
  • Dokumentálja a szolgáltatás erőforrásigényét. Például: dedikált virtuálisgép-példányok száma, Spanner-példányok száma, speciális hardver, például GPU vagy TPU.
  • Dokumentumerőforrás-korlátozások: erőforrástípus, régió stb.
  • Dokumentálja a kvótakorlátozásokat új erőforrások létrehozásához. Például korlátozza a GCE API-kérelmek számát, ha az API-t használja új példányok létrehozására.
  • Fontolja meg a terhelési tesztek futtatását a teljesítményromlás elemzéséhez.

Ez minden. Találkozunk az osztályban!

Forrás: will.com

Hozzászólás