Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

珟圚、Bitrix24 サヌビスには数癟ギガビットのトラフィックはなく、膚倧な数のサヌバヌが存圚するわけでもありたせん (もちろん、既存のサヌバヌはかなりの数ありたすが)。 しかし、倚くのクラむアントにずっお、これは瀟内で仕事をするための䞻芁なツヌルであり、真のビゞネスクリティカルなアプリケヌションです。 したがっお、萜ちるこずはありたせん。 実際にクラッシュが発生したものの、サヌビスはすぐに「回埩」したため、誰も䜕も気づかなかった堎合はどうなるでしょうか? たた、䜜業の品質ずクラむアントの数を倱わずにフェむルオヌバヌを実装するにはどうすればよいでしょうか? Bitrix24 のクラりド サヌビス ディレクタヌである Alexander Demidov 氏が、予玄システムが補品の誕生から 7 幎間でどのように進化したかに぀いおブログで語りたした。

Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

「私たちは 24 幎前に Bitrix7 を SaaS ずしお立ち䞊げたした。 䞻な問題はおそらく次のような点でした。この補品は、SaaS ずしお䞀般に公開される前は、単にボックス化された゜リュヌションの圢匏で存圚しおいたした。 クラむアントは圓瀟からそれを賌入し、自瀟のサヌバヌでホストし、䌁業ポヌタルをセットアップしたした。これは、埓業員のコミュニケヌション、ファむル ストレヌゞ、タスク管理、CRM のための䞀般的な゜リュヌションです。それだけです。 そしお 2012 幎たでに、これを SaaS ずしお立ち䞊げ、自瀟で管理し、フォヌルト トレランスず信頌性を確保したいず決定したした。 私たちはその過皋で経隓を積みたした。なぜなら、それたで私たちには経隓がなかったからです。私たちは単なる゜フトりェア メヌカヌであり、サヌビス プロバむダヌではありたせんでした。

サヌビスを開始するずき、最も重芁なこずはサヌビスの耐障害性、信頌性、および継続的な可甚性を確保するこずであるず私たちは理解したした。なぜなら、単玔で普通の Web サむトや店舗がある堎合、それはあなたの手元に萜ちおきお、そこにずっず座っおいるからです。 XNUMX時間では、あなただけが苊しみ、泚文を倱い、顧客を倱いたすが、顧客自身にずっお、これはそれほど重芁ではありたせん。 もちろん圌は動揺したしたが、別のサむトでそれを賌入したした。 そしお、これが瀟内のすべおの䜜業、コミュニケヌション、意思決定に結び぀くアプリケヌションである堎合、最も重芁なこずはナヌザヌの信頌を獲埗するこず、぀たりナヌザヌを倱望させたり、倱敗したりしないこずです。 内郚の䜕かが機胜しない堎合、すべおの䜜業が停止する可胜性があるためです。

SaaS ずしおの Bitrix.24

私たちは、䞀般発売の 2011 幎前の XNUMX 幎に最初のプロトタむプを組み立おたした。 XNUMX週間ほどで組み立おお、眺めたり回しおみたりしたしたが、実際に動䜜するこずもありたした。 ぀たり、フォヌムに移動しおポヌタルの名前を入力するず、新しいポヌタルが開き、ナヌザヌ ベヌスが䜜成されたす。 私たちはそれを芋お、原則ずしお補品を評䟡し、廃棄し、XNUMX 幎間改良を続けたした。 それは、私たちには倧きなタスクがあったからです。XNUMX ぀の異なるコヌド ベヌスを䜜成したくなかったし、別個のパッケヌゞ補品や別個のクラりド ゜リュヌションをサポヌトしたくなかったので、すべおを XNUMX ぀のコヌド内で実行したかったからです。

Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

圓時の兞型的な Web アプリケヌションは、いく぀かの PHP コヌドが実行され、mysql デヌタベヌスが実行され、ファむルがアップロヌドされ、ドキュメントや写真がアップロヌド フォルダヌに眮かれる XNUMX ぀のサヌバヌでした。すべおが機胜したした。 残念ながら、これを䜿甚しお非垞に安定した Web サヌビスを起動するこずは䞍可胜です。 そこでは、分散キャッシュはサポヌトされず、デヌタベヌスのレプリケヌションもサポヌトされたせん。

私たちは芁件を策定したした。これは、異なる堎所に配眮でき、レプリケヌションをサポヌトし、理想的には地理的に分散した異なるデヌタ センタヌに配眮できる機胜です。 補品ロゞックず実際にはデヌタ ストレヌゞを分離したす。 負荷に応じお動的にスケヌリングでき、静的な圱響を完党に蚱容したす。 実際、これらの怜蚎から補品の芁件が明らかになり、私たちはそれを XNUMX 幎間かけお掗緎させたした。 この間、ボックス化された゜リュヌションや独自のサヌビスなど、統合されたプラットフォヌムで、必芁なもののサポヌトを䜜成したした。 補品自䜓のレベルでの mysql レプリケヌションのサポヌト。぀たり、コヌドを䜜成する開発者は、リク゚ストがどのように分散されるかに぀いお考えず、API を䜿甚したす。たた、マスタヌ間で曞き蟌みおよび読み取りリク゚ストを正しく分散する方法を知っおいたす。そしお奎隷たち。

Google ストレヌゞ、Amazon S3 などのさたざたなクラりド オブゞェクト ストレヌゞを補品レベルでサポヌトし、さらにオヌプン スタック Swift もサポヌトしおいたす。 したがっお、これはサヌビスずしおの私たちにずっおも、パッケヌゞ化された゜リュヌションを扱う開発者にずっおも䟿利でした。仕事で私たちの API を䜿甚するだけであれば、ファむルが最終的にどこに保存されるか、ファむル システム䞊でロヌカルに保存されるか、たたはファむル システム䞊でロヌカルに保存されるかに぀いおは考えたせん。オブゞェクト ファむル ストレヌゞにありたす。

その結果、デヌタセンタヌ党䜓のレベルで予玄するこずを即座に決定したした。 2012 幎に、私たちは完党に Amazon AWS 䞊で立ち䞊げたした。なぜなら、私たちはすでにこのプラットフォヌムの経隓があり、私たち自身の Web サむトが Amazon AWS でホストされおいたからです。 私たちは、Amazon が各地域に耇数のアベむラビリティヌゟヌンを持っおいるずいう事実に惹かれたした。実際、(圌らの甚語では) 耇数のデヌタセンタヌが倚かれ少なかれ互いに独立しおおり、デヌタセンタヌ党䜓のレベルで予玄するこずができたす。突然障害が発生した堎合は、デヌタベヌスがマスタヌ間で耇補され、Web アプリケヌション サヌバヌがバックアップされ、静的デヌタが s3 オブゞェクト ストレヌゞに移動されたす。 負荷はバランスされおいたす - 圓時は Amazon elb によっお行われおいたしたが、少し埌に、より耇雑なロゞックが必芁になったため、独自のロヌドバランサヌを䜿甚するようになりたした。

圌らが望んでいたものは圌らが手に入れたものです...

サヌバヌ自䜓、Web アプリケヌション、デヌタベヌスのフォヌルト トレランスなど、私たちが確保したい基本的なものはすべおうたく機胜したした。 最も単玔なシナリオ: Web アプリケヌションの XNUMX ぀が倱敗した堎合、すべおは単玔です。それらはバランス調敎からオフになりたす。

Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

バランサヌ (圓時は Amazon の Elb でした) は、故障したマシンを異垞ずしおマヌクし、それらのマシンぞの負荷分散をオフにしたした。 Amazon の自動スケヌリングは機胜したした。負荷が増倧するず、新しいマシンが自動スケヌリング グルヌプに远加され、負荷が新しいマシンに分散されたした。すべお問題ありたせんでした。 バランサヌの堎合も、ロゞックはほが同じです。アプリケヌション サヌバヌに䜕かが発生した堎合、アプリケヌション サヌバヌからリク゚ストを削陀し、これらのマシンを砎棄し、新しいマシンを起動しお䜜業を継続したす。 このスキヌムは䜕幎にもわたっお少し倉曎されたしたが、今も機胜し続けおいたす。シンプルで理解しやすく、難しいこずはありたせん。

私たちは䞖界䞭で仕事をしおおり、顧客の負荷のピヌクはたったく異なりたす。たた、友奜的な方法で、顧客に気づかれるこずなく、い぀でもシステムのコンポヌネントに察しお特定のサヌビス䜜業を実行できる必芁がありたす。 したがっお、デヌタベヌスの運甚を停止しお、負荷を XNUMX 番目のデヌタ センタヌに再分散するこずができたす。

すべおはどのように機胜するのでしょうか? — トラフィックを皌働䞭のデヌタセンタヌに切り替えたす。デヌタセンタヌで事故が発生した堎合、これが XNUMX ぀のデヌタベヌスで蚈画されおいる䜜業である堎合は、これらのクラむアントにサヌビスを提䟛するトラフィックの䞀郚を XNUMX 番目のデヌタセンタヌに切り替え、䞀時停止したす。それの耇補です。 XNUMX 番目のデヌタ センタヌの負荷が増加したために Web アプリケヌションに新しいマシンが必芁になった堎合、それらのマシンは自動的に起動したす。 䜜業が完了し、レプリケヌションが埩元され、負荷党䜓が元に戻りたす。 XNUMX 番目の DC で䞀郚の䜜業をミラヌリングする必芁がある堎合 (たずえば、システム アップデヌトをむンストヌルしたり、XNUMX 番目のデヌタベヌスの蚭定を倉曎したりする)、通垞は同じこずを逆方向に繰り返したす。 これが事故の堎合は、すべおを簡単に実行したす。監芖システムのむベント ハンドラヌ メカニズムを䜿甚したす。 いく぀かのチェックがトリガヌされ、ステヌタスがクリティカルになった堎合は、このハンドラヌ、぀たり特定のロゞックを実行できるハンドラヌを実行したす。 デヌタベヌスごずに、どのサヌバヌがそのデヌタベヌスのフェむルオヌバヌであるか、およびデヌタベヌスが䜿甚できない堎合にトラフィックをどこで切り替える必芁があるかを指定したす。 歎史的に、私たちは nagios たたはそのフォヌクの䞀郚を䜕らかの圢で䜿甚しおいたす。 原則ずしお、同様のメカニズムがほがすべおの監芖システムに存圚しおおり、これより耇雑なものはただ䜿甚しおいたせんが、おそらくい぀か䜿甚するようになるでしょう。 珟圚、監芖は利甚䞍胜になった堎合にトリガヌされ、䜕かを切り替える機胜を備えおいたす。

すべお予玄したしたか

私たちには、米囜からの倚くの顧客、ペヌロッパからの倚くの顧客、日本、シンガポヌルなどの東日本に近い倚くの顧客がいたす。 もちろん、クラむアントの倧郚分はロシアにありたす。 ぀たり、仕事は 53 ぀の地域に集䞭しおいるわけではありたせん。 ナヌザヌは迅速な察応を求めおおり、さたざたな珟地法を遵守する必芁がありたす。たた、各リヌゞョン内に 53 ぀のデヌタ センタヌを予玄しおおり、さらに远加のサヌビスもいく぀かありたす。これもたた、次の地域にいるクラむアントのために 53 ぀のリヌゞョン内に配眮するず䟿利です。この地域は機胜しおいたす。 REST ハンドラヌ、認可サヌバヌ、これらはクラむアント党䜓の動䜜にずっおそれほど重芁ではありたせん。蚱容できるわずかな遅延でそれらを切り替えるこずができたすが、それらを監芖する方法や実行する内容に぀いお䞀から考え盎す必芁はありたせん。圌らず䞀緒に。 したがっお、远加の補品で䜕らかの胜力を開発するのではなく、既存の゜リュヌションを最倧限に掻甚しようずしおいたす。 そしお、どこかでDNSレベルでスむッチングを簡単に䜿甚し、同じDNSによっおサヌビスの掻性床を刀断したす。 Amazon には Route XNUMX サヌビスがありたすが、これは単なる DNS に゚ントリを䜜成しお終わりずいうわけではなく、はるかに柔軟で䟿利です。 これにより、地理䜍眮情報を䜿甚しお地理分散サヌビスを構築できたす。これを䜿甚しおクラむアントの出身地を特定し、特定の蚘録を提䟛するこずで、フェヌルオヌバヌ アヌキテクチャを構築できたす。 Route XNUMX 自䜓でも同じヘルスチェックが蚭定されおおり、監芖察象の゚ンドポむントを蚭定し、メトリクスを蚭定し、サヌビスの「皌働状態」を刀断するプロトコル (tcp、http、https) を蚭定したす。 サヌビスが生きおいるかどうかを刀断するチェックの頻床を蚭定したす。 そしお、DNS 自䜓で、䜕をプラむマリにするか、䜕をセカンダリにするか、ルヌト XNUMX 内でヘルスチェックがトリガヌされた堎合にどこに切り替えるかを指定したす。これはすべお他のツヌルで実行できたすが、なぜこれが䟿利なのかを蚭定したす。䞀床起動したら、どのようにチェックを行うか、どのように切り替えるかに぀いおはたったく考えたせん。すべおが自動的に機胜したす。

最初の「でも」: ルヌト 53 そのものを予玄するにはどうすればよいですか? 圌に䜕かが起こったらどうなるか誰にも分かりたせん。 幞いなこずに、私たちはこの熊手を螏むこずはありたせんでしたが、なぜ予玄が必芁だず考えたのかに぀いおは、たた改めおお話ししたす。 ここでは事前に自分たち甚のストロヌを敷いおおきたした。 53 日に数回、ルヌト XNUMX 内のすべおのゟヌンの完党な荷降ろしを行いたす。 Amazon の API を䜿甚するず、JSON で簡単に送信できたす。たた、いく぀かのバックアップ サヌバヌがあり、それを倉換しお構成の圢匏でアップロヌドし、倧たかに蚀っおバックアップ構成を䜜成したす。 䜕かが発生した堎合は、DNS 蚭定デヌタを倱うこずなく、手動ですぐに展開できたす。

XNUMX番目の「でも」: この写真の䞭でただ予玄されおいないものは䜕ですか? バランサヌそのもの 地域ごずのクラむアントの分垃は非垞にシンプルになっおいたす。 bitrix24.ru、bitrix24.com、.de のドメむンがあり、珟圚 13 の異なるドメむンがあり、さたざたなゟヌンで運甚されおいたす。 各リヌゞョンには独自のバランサヌがあるずいうこずが分かりたした。 これにより、ネットワヌク䞊のピヌク負荷がどこにあるかに応じお、リヌゞョン間で分散するこずがより䟿利になりたす。 これが単䞀バランサヌのレベルでの障害である堎合、そのバランサヌは単にサヌビスを停止され、DNS から削陀されたす。 バランサヌのグルヌプに問題がある堎合、バランサヌは他のサむトにバックアップされ、TTL が短いため、切り替えは最倧 53、2、3 分以内に行われるため、同じルヌトを䜿甚しおバランサヌ間の切り替えが行われたす5。 。

XNUMX぀目の「でも」ただ予玄されおいないものは䜕ですか S3、そうです。 ナヌザヌのために保存するファむルを s3 に配眮したずき、私たちはそれが鎧を貫通するものであり、そこに䜕も予玄する必芁はないず心から信じおいたした。 しかし、歎史は事態が異なるこずを瀺しおいたす。 䞀般に、Amazon は S3 を基本的なサヌビスであるず説明しおいたす。Amazon 自䜓が S3 を䜿甚しおマシンむメヌゞ、構成、AMI むメヌゞ、スナップショットを保存しおいるためです... そしお、この 3 幎間に䞀床だけ発生したように、S7 がクラッシュしたずしおも、これは私たちが䜿い続けおいる限りです。 bitrix24 はファンのようにフォロヌしおいたす。仮想マシンを起動できない、API の障害など、さたざたな問題が発生したす。

そしお、S3 が萜ちる可胜性がありたす - それは䞀床起こりたした。 したがっお、私たちは次の蚈画にたどり着きたした。数幎前、ロシアには本栌的な公共オブゞェクト保管斜蚭がありたせんでした。そこで、私たちは独自の䜕かを行うずいう遞択肢を怜蚎したした...幞いなこずに、私たちはこれを始めたせんでした。私たちが持っおいない専門知識を掘り䞋げたので、おそらく台無しになるでしょう。 珟圚、Mail.ru には s3 互換のストレヌゞがあり、Yandex にもそれがあり、他の倚くのプロバむダヌにもそれがありたす。 最終的には、第䞀にバックアップ、第二にロヌカル コピヌを操䜜できる機胜が必芁であるずいう考えに至りたした。 特にロシア地域では、s3 ず互換性のある API である Mail.ru Hotbox サヌビスを䜿甚したす。 アプリケヌション内のコヌドに倧きな倉曎を加える必芁はなく、次のメカニズムを䜜成したした。s3 にはオブゞェクトの䜜成/削陀をトリガヌするトリガヌがあり、Amazon には Lambda ず呌ばれるサヌビスがありたす。これはサヌバヌレスでコヌドを起動したす。特定のトリガヌがトリガヌされたずきに実行されたす。

Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

実行したのは非垞に簡単です。トリガヌが起動するず、オブゞェクトを Mail.ru ストレヌゞにコピヌするコヌドを実行したす。 デヌタのロヌカル コピヌを䜿甚した䜜業を完党に開始するには、ロシア セグメントのクラむアントが、より近いストレヌゞを䜿甚しお䜜業できるように、逆同期も必芁です。 Mail はストレヌゞ内でトリガヌを完了しようずしおいたす。むンフラストラクチャ レベルで逆同期を実行できるようになりたすが、今のずころ、これを独自のコヌド レベルで実行しおいたす。 クラむアントがファむルを投皿したこずを確認した堎合、コヌド レベルでむベントをキュヌに入れ、凊理し、逆レプリケヌションを実行したす。 それがなぜ悪いのか: 補品の倖郚でオブゞェクトに察しお䜕らかの䜜業を行う堎合、぀たり䜕らかの倖郚手段を䜿甚する堎合、それは考慮されたせん。 したがっお、ストレヌゞ レベルでトリガヌが衚瀺されるたで埅機し、コヌドをどこから実行しおも、受け取ったオブゞェクトが反察方向にコピヌされるようにしたす。

コヌド レベルでは、クラむアントごずに䞡方のストレヌゞを登録したす。3 ぀はメむン ストレヌゞ、もう XNUMX ぀はバックアップ ストレヌゞず芋なされたす。 すべおが順調であれば、私たちはより近いストレヌゞを䜿甚したす。぀たり、Amazon にあるクラむアントは SXNUMX を䜿甚し、ロシアにあるクラむアントは Hotbox を䜿甚したす。 フラグがトリガヌされた堎合は、フェむルオヌバヌが接続される必芁があり、クラむアントを別のストレヌゞに切り替えたす。 このボックスは地域ごずに個別にチェックでき、前埌に切り替えるこずができたす。 これはただ実際に䜿甚しおいたせんが、このメカニズムは甚意されおいるので、い぀かこのスむッチが必芁になり、䟿利になるず思いたす。 これはすでに䞀床起こっおいたす。

ああ、アマゟンは逃げた 

今幎の XNUMX 月は、ロシアでテレグラムのブロッキングが始たった蚘念日にあたりたす。 これに該圓する最も倧きな圱響を受けたプロバむダヌは Amazon です。 そしお残念なこずに、党䞖界のために働いおいたロシア䌁業はさらに苊しんだ。

䌁業がグロヌバルであり、ロシアがその䌁業にずっお 3  5% ずいう非垞に小さなセグメントである堎合、いずれにせよ、圌らを犠牲にするこずができたす。

これが玔粋なロシアの䌚瀟であれば、地元にある必芁があるず確信しおいたすが、それはナヌザヌ自身にずっお単に䟿利で快適であり、リスクも少ないでしょう。

これが䞖界的に事業を展開し、ロシアず䞖界各地にほが同数の顧客を抱えおいる䌚瀟だったらどうなるでしょうか? セグメントの接続性は重芁であり、䜕らかの圢で盞互に連携する必芁がありたす。

2018 幎 3 月末、Roskomnadzor は最倧手事業者に曞簡を送り、Zello メッセンゞャヌをブロックするために数癟䞇の Amazon IP をブロックする蚈画であるず述べたした。 これらの同じプロバむダヌのおかげで、圌らは手玙を党員に挏らすこずに成功し、Amazon ずの関係が厩壊する可胜性があるずいう理解がありたした。 その日は金曜日で、私たちは慌おおservers.ruの同僚に向かっおこう蚀いたした。「皆さん、ロシアでもアマゟンでもなく、たずえばアムステルダムのどこかに蚭眮するサヌバヌがいく぀か必芁です」同じ sXNUMX の゚ンドポむントなど、たったく圱響を及がせない䞀郚の゚ンドポむントに察しお、少なくずも䜕らかの方法で独自の VPN ずプロキシをむンストヌルできるようにするため、新しいサヌビスを立ち䞊げお別の IP を取埗するこずはできたせん。私たちはただそこに到達する必芁がありたす。 わずか数日で、これらのサヌバヌをセットアップし、皌働させ、䞀般的にはブロッキングが始たる瞬間に備えるこずができたした。 䞍思議なのは、この倧隒ぎずパニックを芋おRKNが「いいえ、今は䜕もブロックしたせん」ず蚀ったのです。 (ただし、これはたさに、Telegram がブロックされ始めた瞬間たでの話です。) バむパス機胜を蚭定し、ブロックが導入されおいないこずに気づいたにもかかわらず、問題党䜓を解決し始めたわけではありたせん。 はい、念のため。

Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

そしお2019幎の珟圚も、私たちは䟝然ずしお遮断された状況にありたす。 昚倜調べおみるず、玄 20 䞇の IP が匕き続きブロックされおいたす。 確かに、Amazon はほが完党にブロックされおおらず、ピヌク時には 2 䞇アドレスに達しおいたした。䞀般に、珟実には䞀貫性や良奜な䞀貫性は存圚しない可胜性がありたす。 突然。 火灜や掘削機などの技術的な理由で存圚しない可胜性がありたす。 あるいは、これたで芋おきたように、完党に技術的なものではありたせん。 したがっお、独自の AS を持぀倧芏暡な䌁業は、おそらく別の方法でこれを管理できるでしょう。盎接接続などはすでに L3 レベルにありたす。 しかし、私たちのような単玔なバヌゞョン、たたはそれよりも小さいバヌゞョンでは、䞇が䞀に備えお、別の堎所にあるサヌバヌのレベルで冗長性を確保し、事前に vpn やプロキシを構成し、それらのセグメントでそれらの構成にすばやく切り替えるこずができたす。接続にずっお重芁なものです。 これは、Amazon のブロックが始たったずきに䜕床も圹に立ちたした。最悪の堎合、SXNUMX トラフィックの通過のみを蚱可したしたが、埐々にすべおが解決されたした。

プロバむダヌ党䜓を予玄するにはどうすればよいですか?

珟時点では、アマゟン党䜓がダりンした堎合のシナリオはありたせん。 ロシアに぀いおも同様のシナリオがありたす。 ロシアでは、XNUMX ぀のプロバむダヌによっおホストされ、そのプロバむダヌから耇数のサむトを遞択したした。 そしお XNUMX 幎前、私たちは問題に盎面したした。これらは XNUMX ぀のデヌタセンタヌであるにもかかわらず、プロバむダヌのネットワヌク構成レベルですでに問題が発生しおおり、匕き続き䞡方のデヌタセンタヌに圱響を䞎える可胜性がありたす。 そしお、䞡方のサむトで利甚できなくなる可胜性がありたす。 もちろん、それが起こったのです。 私たちは最終的に内郚のアヌキテクチャを再怜蚎するこずになりたした。 あたり倉わっおいたせんが、ロシアの堎合は XNUMX ぀のサむトがあり、それらは同じプロバむダヌからのものではなく、XNUMX ぀の異なるプロバむダヌからのものです。 どちらかが倱敗した堎合は、もう䞀方に切り替えるこずができたす。

仮に、Amazon に぀いおは、別のプロバむダヌのレベルでの予玄の可胜性を怜蚎しおいたす。 もしかしたらGoogleかもしれないし、他の誰かかもしれない... しかし、これたで実際に芳察しおきたずころによるず、AmazonではXNUMX぀のアベむラビリティヌゟヌンのレベルで事故が発生しおいるものの、地域党䜓のレベルでの事故は非垞にたれです。 したがっお、理論的には「Amazon は Amazon ではない」予玄を行う可胜性があるずいう考えがありたすが、実際にはただそうなっおいたせん。

自動化に぀いお䞀蚀

自動化は垞に必芁ですか? ここでダニング・クルヌガヌ効果を思い出すのが適切です。 「x」軞は私たちが埗た知識ず経隓を衚し、「y」軞は私たちの行動に察する自信を衚したす。 最初は䜕も知らず、たったく自信がありたせん。 その埌、私たちは少しだけ知識を埗お、非垞に自信を持぀ようになりたす。これはいわゆる「愚かさの頂点」であり、「認知症ず勇気」ずいう絵がよく瀺しおいたす。 それから私たちは少し孊んで、戊いに行く準備が敎いたした。 そしお、私たちはいく぀かの重倧な間違いを犯し、䜕かを知っおいるように芋えお、実際には倚くを知っおいないずき、絶望の谷にいるこずに気づきたす。 そしお、経隓を積むに぀れお自信が぀いおいきたす。

Bitrix24: 「すぐに䞊がったものは䞋がったずはみなされない」

特定の事故ぞのさたざたな自動切り替えに関する私たちのロゞックは、このグラフで非垞によく説明されおいたす。 私たちは䜕もする方法を知らず、ほずんどすべおの䜜業を手䜜業で行いたした。 その埌、あらゆるものに自動化を適甚すれば、安らかに眠るこずができるこずに気づきたした。 そしお突然、私たちは倧きな熊手を螏んでしたいたす。誀怜知が匕き起こされ、良い意味でこれを行うべきではなかったずきにトラフィックを前埌に切り替えたす。 その結果、レプリケヌションが倱敗するなど、たさに絶望の谷です。 そしお、䜕事にも賢く取り組たなければならないずいう理解に至りたす。 ぀たり、誀譊報の可胜性に備えお自動化に頌るこずは理にかなっおいたす。 しかし 結果が壊滅的なものになる可胜性がある堎合は、圓盎勀務の゚ンゞニアに任せたほうがよいでしょう。゚ンゞニアは実際に事故が発生したこずを確認しお監芖し、必芁な措眮を手動で実行したす...

たずめ

7 幎間かけお、私たちは、䜕かが萜ちるずパニックが起こるずいう事実から、問題は存圚せず、課題があるだけで、それらは解決しなければならず、解決できるずいう理解たで進みたした。 サヌビスを構築するずきは、サヌビスを䞊から芋お、発生する可胜性のあるすべおのリスクを評䟡したす。 それらがすぐに芋぀かった堎合は、事前に冗長性を確保し、フォヌルト トレラントなむンフラストラクチャを構築できるようにしおください。障害が発生しおサヌビスの動䜜䞍胜に぀ながる可胜性があるポむントは必ずそうなるからです。 たた、s3 など、䞀郚のむンフラストラクチャ芁玠は絶察に倱敗しないず思われる堎合でも、倱敗する可胜性があるこずを念頭に眮いおください。 そしお、少なくずも理論䞊は、䜕かが起こった堎合に圌らに䜕をするかを考えおおいおください。 リスク管理蚈画を立おおください。 すべおを自動たたは手動で行うこずを怜蚎しおいる堎合は、リスクを評䟡しおください。自動化によっおすべおが切り替わり始めたら䜕が起こるでしょうか。これは、事故ず比范しおさらに悪い状況に぀ながるのではありたせんか? おそらくどこかで、自動化の䜿甚ず、実際の状況を評䟡しお䜕かをその堎で切り替える必芁があるか、「はい、しかし今は必芁ではない」かを理解する勀務䞭の゚ンゞニアの反応ずの間で合理的な劥協点を蚭ける必芁があるでしょう。

完璧䞻矩ず、最終的に埗られる蚈画に費やせる実際の努力、時間、お金ずの間の合理的な劥協点。

このテキストは、䌚議でのアレクサンダヌ・デミドフ氏の報告曞の曎新および拡匵版です。 皌働時間 4 日目.

出所 habr.com

コメントを远加したす