PagerDuty、たたは運甚郚門が倜眠れない理由

システムが耇雑になればなるほど、あらゆる皮類のアラヌトが増えすぎたす。 そしお、これらの同じアラヌトに察応し、それらを集玄しお芖芚化する必芁がありたす。 これは倚くの人にずっお緊匵するほどよく知られた状況だず思いたす。

これから説明する解決策はそれほど予想倖のものではありたせんが、怜玢しおもこのトピックに関する本栌的な蚘事は芋぀かりたせん。

したがっお、私は FunCorp の経隓を共有し、職務プロセスがどのように構成されおいるか、誰が電話をかけ、なぜ、どのようにすべおを確認できるかに぀いお話すこずにしたした。

PagerDuty、たたは運甚郚門が倜眠れない理由

PagerDutyずは䜕ですか?

そこで、これらすべおの問題を解決するために、䟿利なツヌルを探し始めたした。 いく぀か怜玢した結果、PagerDuty を遞択したした。 私たちにずっお、PD は、倚数の統合ず蚭定を備えた、かなり完党で簡朔な゜リュヌションであるように芋えたした。 圌女はどんな人ですか

぀たり、PagerDuty は、さたざたな統合を通じお受信したむンシデントを凊理し、勀務指瀺を蚭定し、むンシデントのレベル (高レベルでは通話、䜎レベルでは) に応じお勀務䞭の゚ンゞニアに譊告できるむンシデント凊理プラットフォヌムです。アプリケヌション/SMS からのプッシュ。

圓番圹員は誰ですか?

おそらく、これが PD のセットアップを開始する最初の堎所です。

FunCorp には、他の䌁業ず同様に、圓番圹員ずいう名誉職がありたす。 10 日に XNUMX 回、゚ンゞニアから゚ンゞニアぞず送信されたす。 PagerDuty からのアラヌトに察する応答には、いわゆる XNUMX 行目ず XNUMX 行目がありたす。 優先床の高いアラヌトが到着し、最初の回線から圓盎担圓者に電話しおから XNUMX 分経過しおも反応がなかった堎合 (぀たり、確認たたは解決ステヌタスに転送されなかった堎合)、通話は XNUMX 番目の回線に進みたす。圓盎゚ンゞニア。 これは、PagerDuty 自䜓で゚スカレヌションポリシヌを通じお蚭定されたす。

PagerDuty、たたは運甚郚門が倜眠れない理由

XNUMX 番目の圓盎担圓者が応答しない堎合、通知は元に戻りたす。 メむン 圓番職員に。

したがっお、受信した優先床の高いアラヌトを未凊理のたたにするこずはできたせん。 

次に、むンシデントがどこから発生するかを芋おみたしょう。

どのような統合を䜿甚したすか?

PD はさたざたなサヌビスからさたざたなむンシデントを受け取りたす。 珟圚、そのようなサヌビスが玄 25 あり、それらを凊理するために既補の統合をいく぀か䜿甚しおいたす。

  • プロメテりス

䞻芁なメトリクス収集システムは Prometheus です。 これに぀いおはすでに Habré で倚くのこずが曞かれおいたすが、さたざたな環境甚にいく぀かのメトリクスがあるこずだけを述べおおきたす。XNUMX ぀は仮想マシンず Docker からメトリクスを収集し、もう XNUMX ぀は Amazon サヌビスからメトリクスを収集し、XNUMX ぀目はハヌドりェア マシンからメトリクスを収集したす。 Telegraf は䞻にメトリクス ゚クスポヌタヌずしお䜿甚されたす。

  • メヌル

ここでも、タむトルからすべおが明らかだず思いたす。 この統合は、cron によっお実行されるいく぀かのスクリプトから通知を送信するために䜿甚されたす。 PD はあなたに手玙を送るための特定の䜏所を䞎えたす。 このような統合を䜿甚しおサヌビスを䜜成する堎合は、優先順䜍、受信むンシデントの凊理順序、アラヌトの正確な䜜成方法 (受信レタヌごず、受信レタヌ + 特定のルヌルなど) を蚭定できたす。

PagerDuty、たたは運甚郚門が倜眠れない理由

  • Slack

私の意芋では、非垞に興味深い統合です。 䜕かが起こっおもむンシデントにカバヌされない堎合もありたす。 そこで、Slack からの連携を远加しおむンシデントを䜜成したした。 ぀たり、䌁業の Slack に曞き蟌むこずができたす。 /callofduty すべおが遅いのですぐに壊れたす PD はそれを凊理し、圓盎゚ンゞニアにむンシデントを送信したす。

私たちは次のこずを行いたす:

PagerDuty、たたは運甚郚門が倜眠れない理由

私たちは芋る

PagerDuty、たたは運甚郚門が倜眠れない理由

  • API

HTTPの統合。 実際、ここには特に興味深いものはなく、JSON 圢匏の本文を持぀ POST リク゚ストがあるだけです。 たずえば、興味深いこずです。これを䜿甚しお倖郚モニタリングに䜿甚したす。 https://www.statuscake.com/。 このサヌビスは、䞖界のさたざたな地域から圓瀟のサむトぞのアクセス可胜性をチェックしたす。 受け入れられない応答コヌド (502 など) を受信した堎合、むンシデントが䜜成され、その埌、すべおが䞊蚘のチェヌンに埓いたす。 StatusCake 自䜓には、内郚 URL、SSL 蚌明曞、たたはドメむンの有効期限を監芖する機胜がありたす。

  • リブレNMS

これは別の監芖システムです。詳现に぀いおは、Web サむトで読むこずができたす。 https://www.librenms.org/。 その助けを借りお、サヌバヌからネットワヌクむンタヌフェむスずiDRACを監芖したす。

PagerDuty、たたは運甚郚門が倜眠れない理由

Datadog、CloudWatch などの統合もありたした。 圌らに䜕が起こったのかを詳しく芋るこずができたす ここで.

可芖化

䞻なむンシデント報告システムは Slack です。 PD に届くすべおのむンシデントは特別なチャットに曞き蟌たれ、ステヌタスが倉化した堎合には、それもチャットに衚瀺されたす。

PagerDuty、たたは運甚郚門が倜眠れない理由

倩井から吊り䞋げられたモニタヌの画面に有甚なデヌタを衚瀺する機䌚が来たずき、私たち (devops 郚門には) モニタヌに衚瀺するものが䜕もないこずに突然気づきたした。 玠晎らしい Grafana がありたすが、すべおをカバヌしおいるわけではなく、埓業員はグラフではなくアラヌトに反応したす。

PD 甚の簡朔で有益な「ボヌド」を GitHub で培底的に怜玢したしたが倱敗したため、必芁なものだけを䜿甚しお独自のボヌドを䜜成するこずにしたした。 圓初はPDむンタヌフェヌス自䜓を衚瀺するずいうアむデアもありたしたが、それはさらに䞍䟿に芋えたした。

これを曞き蟌むために必芁なのは、読み取り専甚暩限を持぀ PD からキヌを取埗するこずだけです。
そしお、これが私たちが埗たものです:

PagerDuty、たたは運甚郚門が倜眠れない理由

画面には、珟圚未解決のむンシデント、遞択したスケゞュヌルから珟圚勀務しおいる゚ンゞニアの名前、および優先床の高いむンシデントが発生しおいない時間が衚瀺されたす (優先床の高いむンシデントがあるパネルは赀色で匷調衚瀺されたす)。

この実装の゜ヌスはここを参照しおください.

その結果、すべおのむンシデントを衚瀺するための䟿利なダッシュボヌドを入手したした。 私たちの経隓が少しでも圹に立おば幞いです。

出所 habr.com

コメントを远加したす