Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

Dina iki, layanan Bitrix24 ora duwe atusan gigabit lalu lintas, lan uga ora duwe armada server sing akeh banget (sanajan, mesthi, ana sawetara sing wis ana). Nanging kanggo akeh klien, iku alat utama kanggo makarya ing perusahaan; iku aplikasi bisnis-kritis nyata. Mulane, ora ana cara kanggo tiba. Apa yen kacilakan kasebut kedadeyan, nanging layanan kasebut "pulih" kanthi cepet nganti ora ana sing weruh apa-apa? Lan kepiye carane bisa ngetrapake failover tanpa kelangan kualitas karya lan jumlah klien? Alexander Demidov, direktur layanan maya ing Bitrix24, ngandika kanggo blog kita babagan carane sistem reservasi wis berkembang sajrone 7 taun produk kasebut.

Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

"Kita ngluncurake Bitrix24 minangka SaaS 7 taun kepungkur. Kesulitan utama bisa uga ing ngisor iki: sadurunge diluncurake sacara umum minangka SaaS, produk iki mung ana ing format solusi kotak. Klien tuku saka kita, dadi tuan rumah ing server, nyiyapake portal perusahaan - solusi umum kanggo komunikasi karyawan, panyimpenan file, manajemen tugas, CRM, iku kabeh. Lan ing taun 2012, kita mutusake yen kita pengin diluncurake minangka SaaS, ngatur dhewe, njamin toleransi lan linuwih. Kita entuk pengalaman ing dalan, amarga nganti saiki kita ora duwe - kita mung produsen piranti lunak, dudu panyedhiya layanan.

Nalika miwiti layanan, kita mangertos sing paling penting iku kanggo mesthekake toleransi fault, linuwih lan kasedhiyan pancet saka layanan, amarga yen sampeyan duwe situs web biasa prasaja, toko, contone, lan tiba ing sampeyan lan lenggah ana kanggo sejam, mung sampeyan nandhang sangsara, sampeyan kelangan pesenan, sampeyan kelangan klien, nanging kanggo klien sampeyan dhewe, iki ora kritis banget kanggo dheweke. Dheweke kesel, mesthi, nanging dheweke lunga lan tuku ing situs liyane. Lan yen iki minangka aplikasi sing kabeh karya ing perusahaan, komunikasi, keputusane diikat, mula sing paling penting yaiku entuk kapercayan saka pangguna, yaiku, ora ngeculake lan ora tiba. Amarga kabeh karya bisa mandheg yen ana sing ora bisa digunakake.

Bitrix.24 minangka SaaS

Kita nglumpuk prototipe pisanan setaun sadurunge diluncurake umum, ing 2011. Kita nglumpukake kira-kira seminggu, ndeleng, twirled - malah bisa digunakake. Yaiku, sampeyan bisa mlebu formulir, ketik jeneng portal ing kana, portal anyar bakal mbukak, lan basis pangguna bakal digawe. Kita ndeleng, ngevaluasi produk kasebut kanthi prinsip, ngilangi, lan terus nyaring sajrone setaun. Amarga kita duwe tugas gedhe: kita ora pengin nggawe rong basis kode sing beda, kita ora pengin ndhukung produk rangkep sing kapisah, solusi maya sing kapisah - kita pengin nindakake kabeh ing siji kode.

Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

Aplikasi web sing khas ing wektu kasebut yaiku salah sawijining server sing ana sawetara kode PHP, database mysql, file sing diunggah, dokumen, gambar dilebokake ing folder unggahan - uga, kabeh bisa digunakake. Sayange, ora bisa mbukak layanan web sing stabil kanthi kritis nggunakake iki. Ing kana, cache sing disebarake ora didhukung, replikasi database ora didhukung.

Kita ngrumusake syarat: iki minangka kemampuan kanggo dumunung ing lokasi sing beda-beda, ndhukung replikasi, lan saenipun dumunung ing pusat data sing disebarake sacara geografis. Pisahake logika produk lan, nyatane, panyimpenan data. Bisa skala dinamis miturut beban, lan ngidinke statis kabeh. Saka pertimbangan kasebut, nyatane, syarat kanggo produk kasebut muncul, sing kita resiki sajrone taun. Sajrone wektu iki, ing platform, sing dadi manunggal - kanggo solusi kothak, kanggo layanan kita dhewe - kita nggawe dhukungan kanggo perkara sing dibutuhake. Dhukungan kanggo replikasi mysql ing tingkat produk kasebut dhewe: yaiku, pangembang sing nulis kode kasebut ora mikir babagan cara panjaluke bakal disebarake, dheweke nggunakake api kita, lan kita ngerti carane nyebarake panjaluk nulis lan maca kanthi bener antarane master. lan abdi.

Kita wis nggawe dhukungan ing tingkat produk kanggo macem-macem panyimpenan obyek awan: panyimpenan google, amazon s3, plus dhukungan kanggo open stack swift. Mulane, iki trep kanggo kita minangka layanan lan kanggo pangembang sing nggarap solusi sing dikemas: yen mung nggunakake API kita kanggo kerja, dheweke ora mikir babagan ngendi file kasebut bakal disimpen, sacara lokal ing sistem file utawa ing panyimpenan file obyek.

Akibaté, kita langsung mutusaké sing bakal cadangan ing tingkat kabeh pusat data. Ing 2012, kita diluncurake kabeh ing Amazon AWS amarga kita wis duwe pengalaman karo platform iki - situs web kita dhewe di-host ing kana. Kita kepincut karo kasunyatan manawa ing saben wilayah Amazon duwe sawetara zona kasedhiyan - nyatane, (ing terminologi) sawetara pusat data sing luwih utawa kurang independen lan ngidini kita nggawe cadangan ing tingkat kabeh pusat data: yen dumadakan gagal, database replicated master-master, server aplikasi web digawe serep, lan data statis dipindhah menyang panyimpenan obyek s3. Muatan imbang - ing wektu iku dening Amazon elb, nanging mengko kita teka menyang load balancers kita dhewe, amarga kita perlu logika liyane Komplek.

Sing dikarepake yaiku apa sing dikarepake ...

Kabeh prekara dhasar sing dikarepake - toleransi kesalahan saka server dhewe, aplikasi web, database - kabeh bisa digunakake kanthi apik. Skenario sing paling gampang: yen salah sawijining aplikasi web gagal, mula kabeh gampang - mula dipateni saka imbangan.

Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

Balance (ing wektu iku elb Amazon) nandhani mesin sing ora sehat lan mateni distribusi beban. Amazon autoscaling makarya: nalika beban tansaya, mesin anyar ditambahake menyang grup autoscaling, mbukak iki mbagekke kanggo mesin anyar - kabeh iku apik. Kanthi keseimbangan kita, logika kira-kira padha: yen ana kedadeyan ing server aplikasi, kita mbusak panjaluk kasebut, mbuwang mesin kasebut, miwiti sing anyar lan terus kerja. Skema kasebut wis diganti sethithik sajrone pirang-pirang taun, nanging terus kerja: iku prasaja, bisa dingerteni, lan ora ana alangan.

Kita kerja ing saindenging jagad, puncak beban pelanggan beda banget, lan, kanthi cara sing ramah, kita kudu bisa nindakake pakaryan layanan tartamtu ing komponen apa wae ing sistem kita kapan wae - ora digatekake pelanggan. Mulane, kita duwe kesempatan kanggo mateni database saka operasi, redistributing mbukak menyang pusat data kapindho.

Carane kabeh iku bisa? - Kita ngalih lalu lintas menyang pusat data sing bisa digunakake - yen ana kacilakan ing pusat data, banjur rampung, yen iki karya sing direncanakake karo siji database, banjur kita ngalih bagean lalu lintas sing nglayani klien kasebut menyang pusat data kapindho, nundha iku replikasi. Yen mesin anyar dibutuhake kanggo aplikasi web amarga beban ing pusat data kapindho wis tambah, bakal diwiwiti kanthi otomatis. Kita rampung karya, replikasi dibalèkaké, lan kita bali kabeh mbukak maneh. Yen kita kudu kaca sawetara karya ing DC kapindho, contone, nginstal nganyari sistem utawa ngganti setelan ing database kapindho, banjur, ing umum, kita mbaleni bab sing padha, mung ing arah liyane. Lan yen iki kacilakan, mula kita nindakake kabeh kanthi sepele: kita nggunakake mekanisme penanganan acara ing sistem pemantauan. Yen sawetara mriksa dipicu lan status dadi kritis, banjur kita mbukak handler iki, handler sing bisa nindakake iki utawa logika sing. Kanggo saben database, kita nemtokake server endi sing dadi failover, lan ing ngendi lalu lintas kudu diowahi yen ora kasedhiya. Secara historis, kita nggunakake nagios utawa sawetara garpu ing siji utawa liyane. Ing asas, mekanisme sing padha ana ing meh kabeh sistem ngawasi; kita durung nggunakake apa-apa sing luwih rumit, nanging bisa uga bakal. Saiki ngawasi dipicu dening ora kasedhiya lan nduweni kemampuan kanggo ngalih soko.

Apa kita wis reservasi kabeh?

Kita duwe akeh klien saka AS, akeh klien saka Eropa, akeh klien sing luwih cedhak karo Timur - Jepang, Singapura lan liya-liyane. Mesthi, bagean gedhe saka klien ing Rusia. Tegese, karya ora ana ing siji wilayah. Pangguna pengin respon cepet, ana syarat kanggo tundhuk karo macem-macem hukum lokal, lan ing saben wilayah kita cadangan loro pusat data, plus ana sawetara layanan tambahan, kang, maneh, trep kanggo manggonake ing siji wilayah - kanggo klien sing ing wilayah iki digunakake. pawang REST, server wewenang, lagi kurang kritis kanggo operasi saka klien minangka kabèh, sampeyan bisa ngalih liwat wong-wong mau karo wektu tundha ditrima cilik, nanging sampeyan ora pengin reinvent wheel carane ngawasi lan apa apa. karo wong-wong mau. Mulane, kita nyoba nggunakake solusi sing wis ana kanthi maksimal, tinimbang ngembangake sawetara kompetensi ing produk tambahan. Lan ing endi wae kita nggunakake switch ing tingkat DNS, lan kita nemtokake liveliness layanan kasebut kanthi DNS sing padha. Amazon duwe layanan Route 53, nanging ora mung DNS sing sampeyan bisa nggawe entri lan mung iku - luwih fleksibel lan trep. Liwat sampeyan bisa mbangun layanan sing disebarake geo kanthi geolokasi, nalika sampeyan nggunakake aplikasi kasebut kanggo nemtokake asale saka klien lan menehi cathetan tartamtu - kanthi bantuan sampeyan bisa mbangun arsitektur failover. Priksa kesehatan sing padha dikonfigurasi ing Route 53 dhewe, sampeyan nyetel titik pungkasan sing dipantau, nyetel metrik, nyetel protokol kanggo nemtokake "liveness" layanan - tcp, http, https; nyetel frekuensi mriksa sing nemtokake apa layanan urip utawa ora. Lan ing DNS dhewe sampeyan nemtokake apa sing bakal dadi utami, apa sing bakal dadi sekunder, ing ngendi ngalih yen mriksa kesehatan dipicu ing rute 53. Kabeh iki bisa ditindakake kanthi sawetara alat liyane, nanging kenapa trep - kita nyetel. munggah sapisan lan banjur ora mikir bab iku kabeh carane kita mriksa, carane kita ngalih: kabeh bisa ing dhewe.

Sing pisanan "nanging": carane lan apa kanggo cadangan rute 53 dhewe? Sapa ngerti, yen ana apa-apa marang dheweke? Begjanipun, kita tau jumangkah ing rake iki, nanging maneh, Aku bakal crita ahead kok kita panginten sing kita isih perlu kanggo nggawe leladen. Kene kita glethakaken metu jerami kanggo awake dhewe ing advance. Kaping pirang-pirang dina kita mbukak kabeh zona sing ana ing rute 53. API Amazon ngijini sampeyan kanggo gampang ngirim ing JSON, lan kita duwe sawetara server serep ngendi kita Ngonversi, upload ing wangun configs lan duwe, kira-kira ngandika, konfigurasi serep. Yen ana kedadeyan, kita bisa kanthi cepet nyebarake kanthi manual tanpa kelangan data setelan DNS.

Kapindho "nanging": Apa ing gambar iki sing durung dicawisake? Imbangan dhewe! Distribusi klien miturut wilayah digawe gampang banget. Kita duwe domain bitrix24.ru, bitrix24.com, .de - saiki ana 13 sing beda-beda, sing beroperasi ing macem-macem zona. We teka ing ngisor iki: saben wilayah wis balancers dhewe. Iki nggawe luwih trep kanggo disebarake ing wilayah, gumantung ing endi beban puncak ing jaringan. Yen gagal ing tingkat balancer siji, iku mung dijupuk metu saka layanan lan dibusak saka dns. Yen ana sawetara masalah karo klompok balancers, banjur padha digawe serep ing situs liyane, lan ngoper antarane wong-wong mau wis rampung nggunakake route53 padha, amarga TTL cendhak, ngoper dumadi ing maksimum 2, 3, 5 menit. .

Katelu "nanging": Apa sing durung dicawisake? S3, bener. Nalika kita nyelehake file sing disimpen kanggo pangguna ing s3, kita kanthi tulus percaya yen iki tembus waja lan ora perlu leladen apa wae ing kana. Nanging sejarah nuduhake manawa kedadeyan beda. Umumé, Amazon njlèntrèhaké S3 minangka layanan dhasar, amarga Amazon dhewe nggunakake S3 kanggo nyimpen gambar mesin, konfigurasi, gambar AMI, snapshots ... Lan yen s3 tubrukan, kaya sing kedadeyan sapisan sajrone 7 taun iki, anggere kita wis nggunakake. bitrix24, ngetutake kaya penggemar Ana akeh perkara sing muncul - ora bisa miwiti mesin virtual, gagal api, lan liya-liyane.

Lan S3 bisa tiba - kedadeyan sapisan. Mulane, kita teka ing skema ing ngisor iki: sawetara taun kepungkur ora ana fasilitas panyimpenan obyek umum sing serius ing Rusia, lan kita nganggep pilihan kanggo nindakake soko dhewe ... Untunge, kita ora miwiti nindakake iki, amarga kita bakal wis ndudhuk menyang expertise sing kita ora duwe kita duwe, lan mbokmenawa bakal kekacoan munggah. Saiki Mail.ru duwe panyimpenan sing kompatibel karo s3, Yandex duwe, lan sawetara panyedhiya liyane duwe. We pungkasanipun teka ing idea sing kita wanted kanggo duwe, pisanan, serep, lan liya, kemampuan kanggo nggarap salinan lokal. Kanggo wilayah Rusia khusus, kita nggunakake layanan Mail.ru Hotbox, sing kompatibel karo API karo s3. Kita ora mbutuhake modifikasi utama kanggo kode ing aplikasi kasebut, lan kita nggawe mekanisme ing ngisor iki: ing s3 ana pemicu sing nyebabake nggawe / mbusak obyek, Amazon duwe layanan sing diarani Lambda - iki minangka peluncuran kode tanpa server. sing bakal dieksekusi mung nalika pemicu tartamtu dipicu.

Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

Kita nindakake kanthi gampang: yen pemicu kita murub, kita nglakokake kode sing bakal nyalin obyek kasebut menyang panyimpenan Mail.ru. Kanggo miwiti kanthi lengkap karo salinan data lokal, kita uga butuh sinkronisasi mbalikke supaya klien sing ana ing segmen Rusia bisa nggarap panyimpenan sing luwih cedhak karo dheweke. Mail bakal ngrampungake pemicu ing panyimpenan - bakal bisa nindakake sinkronisasi mbalikke ing tingkat infrastruktur, nanging saiki kita nindakake iki ing tingkat kode kita dhewe. Yen kita weruh yen klien wis ngirim file, banjur ing tingkat kode kita nyelehake acara ing antrian, proses lan nindakake replikasi mbalikke. Apa iku ala: yen kita nindakake sawetara jinis karya karo obyek kita njaba produk kita, sing, dening sawetara cara external, kita ora bakal njupuk menyang akun. Mulane, kita ngenteni nganti pungkasan, nalika pemicu katon ing tingkat panyimpenan, supaya ora ketompo ngendi kita nglakokaké kode saka, obyek sing teka kanggo kita disalin menyang arah liyane.

Ing tingkat kode, kita ndhaftar loro panyimpenan kanggo saben klien: siji dianggep utama, liyane dianggep cadangan. Yen kabeh apik, kita kerja karo panyimpenan sing luwih cedhak karo kita: yaiku, klien kita sing ana ing Amazon, dheweke kerja karo S3, lan sing kerja ing Rusia, dheweke kerja karo Hotbox. Yen gendera dipicu, banjur failover kudu disambungake, lan kita ngalih klien kanggo panyimpenan liyane. Kita bisa mriksa kothak iki kanthi mandiri miturut wilayah lan bisa bolak-balik. Kita durung nggunakake iki ing laku, nanging kita wis kasedhiya kanggo mekanisme iki lan kita mikir sing ing sawijining dina kita bakal perlu iki banget ngalih lan teka ing Handy. Iki wis kedadeyan sepisan.

Oh, lan Amazon mlayu ...

April iki nandhani ulang taun wiwitan pamblokiran Telegram ing Rusia. Panyedhiya sing paling kena pengaruh sing ana ing ngisor iki yaiku Amazon. Lan, sayangé, perusahaan Rusia sing kerja ing saindenging jagad nandhang sangsara luwih akeh.

Yen perusahaan global lan Rusia minangka bagean cilik, 3-5% - kanthi cara siji utawa liyane, sampeyan bisa ngorbanake.

Yen iki perusahaan sejatine sifate Rusia - Aku yakin sing kudu dumunung sacara lokal - uga, iku mung bakal trep kanggo pangguna dhewe, nyaman, lan bakal ana risiko kurang.

Apa yen iki minangka perusahaan sing beroperasi sacara global lan duwe jumlah klien sing kira-kira padha saka Rusia lan nang endi wae ing saindenging jagad? Konektivitas segmen kasebut penting, lan kudu bisa digunakake kanthi cara siji utawa liyane.

Ing pungkasan Maret 2018, Roskomnadzor ngirim surat menyang operator paling gedhe sing nyatakake yen dheweke ngrancang kanggo mblokir pirang-pirang yuta IP Amazon kanggo ngalangi ... utusan Zello. Thanks kanggo panyedhiya sing padha - padha kasil bocor layang kanggo kabeh wong, lan ana pangerten sing sambungan karo Amazon bisa ambruk. Dina Jumuah, kita mlayu panik marang kanca-kanca saka servers.ru, kanthi tembung: "Kanca-kanca, kita butuh sawetara server sing ora ana ing Rusia, ora ing Amazon, nanging, umpamane, ing endi wae ing Amsterdam." supaya bisa nginstal VPN lan proxy dhewe ing sawetara titik pungkasan sing ora bisa pengaruhe kanthi cara apa wae, contone endponts saka s3 sing padha - kita ora bisa nyoba ngunggahake layanan anyar lan entuk beda. ip, kita sampeyan isih kudu njaluk ana. Mung sawetara dina, kita nyiyapake server kasebut, nyiyapake lan mbukak, lan, umume, disiapake nalika pamblokiran diwiwiti. Penasaran yen RKN, ndeleng ribut lan gupuh, ujar: "Ora, saiki ora bakal ngalangi apa-apa." (Nanging iki persis nganti wayahe Telegram wiwit diblokir.) Sawise nyiyapake kapabilitas bypass lan nyadari yen pamblokiran kasebut durung ditepungi, kita, nanging ora miwiti ngrampungake kabeh perkara kasebut. Ya, mung ing kasus.

Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

Lan ing 2019, kita isih urip ing kahanan pamblokiran. Aku ndeleng wingi: sekitar yuta IP terus diblokir. Bener, Amazon meh ora diblokir, ing puncake tekan 20 yuta alamat ... Umume, kasunyatane bisa uga ora ana koherensi, koherensi sing apik. Dumadakan. Bisa uga ora ana amarga alasan teknis - kebakaran, ekskavator, lan liya-liyane. Utawa, kaya sing kita deleng, ora sakabehe teknis. Mulane, wong gedhe lan gedhe, kanthi AS dhewe, bisa uga bisa ngatur iki kanthi cara liya - nyambung langsung lan liya-liyane wis ana ing tingkat l2. Nanging ing versi prasaja, kaya kita utawa malah luwih cilik, sampeyan bisa, mung ing kasus, duwe redundansi ing tingkat server wungu ing panggonan liya, diatur ing advance vpn, proxy, karo kemampuan kanggo cepet ngalih konfigurasi kanggo wong-wong mau ing perangan kasebut. sing penting kanggo konektivitas sampeyan. Iki luwih migunani kanggo kita luwih saka sepisan, nalika pamblokiran Amazon diwiwiti; ing skenario paling awon, kita mung ngidini lalu lintas S3 liwat wong-wong mau, nanging mboko sithik kabeh iki ditanggulangi.

Carane leladen ... panyedhiya kabeh?

Saiki, kita ora duwe skenario yen kabeh Amazon mudhun. Kita duwe skenario sing padha kanggo Rusia. Ing Rusia, kita dianakake dening siji panyedhiya, sing kita pilih duwe sawetara situs. Lan setahun kepungkur, kita ngadhepi masalah: sanajan iki minangka rong pusat data, bisa uga ana masalah ing tingkat konfigurasi jaringan panyedhiya sing isih bakal mengaruhi pusat data kasebut. Lan kita bisa uga ora kasedhiya ing loro situs kasebut. Mesthi wae kedadeyan kasebut. We rampung munggah reconsidering arsitektur nang. Ora owah banget, nanging kanggo Rusia saiki kita duwe rong situs, sing ora saka panyedhiya sing padha, nanging saka rong situs sing beda. Yen salah siji gagal, kita bisa ngalih menyang liyane.

Hypothetically, kanggo Amazon kita nimbang kemungkinan reservasi ing tingkat panyedhiya liyane; Mungkin Google, bisa uga wong liya ... Nanging nganti saiki kita wis diamati ing laku yen Amazon ngalami kacilakan ing tingkat siji zona kasedhiyan, kacilakan ing tingkat kabeh wilayah cukup langka. Mulane, kanthi teoritis kita duwe gagasan yen bisa nggawe reservasi "Amazon dudu Amazon", nanging ing praktik iki durung kedadeyan.

Sawetara tembung babagan otomatisasi

Apa otomatisasi tansah perlu? Kene iku cocok kanggo kelingan efek Dunning-Kruger. Ing sumbu "x" yaiku kawruh lan pengalaman sing kita entuk, lan ing sumbu "y" yaiku kapercayan ing tumindak kita. Ing wiwitan, kita ora ngerti apa-apa lan ora yakin. Banjur kita ngerti sethithik lan dadi yakin banget - iki sing diarani "puncak kabodhoan", sing digambarake kanthi gambar "demensia lan wani". Banjur kita wis sinau sethithik lan siap kanggo perang. Banjur kita langkah ing sawetara kesalahane mega-serius lan golek dhéwé ing lembah ora kentekan niat, nalika kita koyone ngerti soko, nanging nyatane kita ora ngerti akeh. Banjur, nalika entuk pengalaman, kita dadi luwih percaya diri.

Bitrix24: "Apa sing cepet diunggahake ora dianggep tiba"

Logika kita babagan macem-macem ngalih otomatis menyang kacilakan tartamtu diterangake kanthi apik ing grafik iki. Kita miwiti - kita ora ngerti carane nindakake apa-apa, meh kabeh karya wis rampung dening tangan. Banjur kita nyadari yen kita bisa masang otomatis ing kabeh lan, kaya, turu kanthi tentrem. Lan dumadakan kita langkah ing mega-rake: positif palsu micu, lan kita ngalih lalu lintas bali lan kasebut nalika, ing cara sing apik, kita ngirim ora nindakake iki. Akibate, replikasi rusak utawa liya-liyane - iki minangka lembah keputusasaan. Banjur kita ngerti yen kita kudu nyedhaki kabeh kanthi wicaksana. Sing, iku ndadekake pangertèn kanggo gumantung ing otomatisasi, nyedhiyani kamungkinan saka weker palsu. Nanging! yen akibate bisa ngrusak, luwih becik pasrahake menyang shift tugas, menyang insinyur sing tugas, sing bakal nggawe manawa lan ngawasi yen pancen ana kacilakan, lan bakal nindakake tindakan sing dibutuhake kanthi manual ...

kesimpulan

Sajrone 7 taun, kita lunga saka kasunyatan yen ana sing tiba, ana panik-gupuh, menyang pangerten yen masalah ora ana, mung ana tugas, kudu - lan bisa - ditanggulangi. Nalika sampeyan mbangun layanan, deleng saka ndhuwur, evaluasi kabeh risiko sing bisa kedadeyan. Yen sampeyan langsung ndeleng, banjur nyedhiyani redundansi ing advance lan kamungkinan kanggo mbangun infrastruktur fault-tolerant, amarga sembarang titik sing bisa gagal lan mimpin kanggo inoperability saka layanan mesthi bakal nindakake. Lan sanajan sampeyan misale jek sing sawetara unsur saka infrastruktur temtunipun ora bakal gagal - kaya s3 padha, isih mbudidaya sing padha bisa. Lan paling ora ing teori, duwe gagasan apa sing bakal sampeyan lakoni yen ana kedadeyan. Nduwe rencana manajemen risiko. Yen sampeyan mikir babagan nindakake kabeh kanthi otomatis utawa manual, evaluasi risiko: apa sing bakal kelakon yen otomasi wiwit ngalih kabeh - apa ora bakal nyebabake kahanan sing luwih elek dibandhingake kacilakan? Mbokmenawa ing endi wae perlu nggunakake kompromi sing cukup antarane panggunaan otomatis lan reaksi saka insinyur ing tugas, sing bakal ngevaluasi gambar nyata lan ngerti apa ana sing kudu diuripake ing papan kasebut utawa "ya, nanging ora saiki."

A kompromi cukup antarane perfeksionisme lan gaweyan nyata, wektu, dhuwit sing bisa nglampahi ing rencana sing pungkasanipun bakal duwe.

Tèks iki minangka versi laporan Alexander Demidov sing dianyari lan ditambahi ing konferensi kasebut Uptime dina 4.

Source: www.habr.com

Add a comment