Эгер маалымат борборунун түтүн сыноосу күйүп кетсе, серверлер өчүрүлүшү керекпи?

Жайдын сонун күндөрдүн биринде сиздин жабдыктарыңыз менен маалымат борбору ушундай болуп калса, кандай сезимде болот элеңиз?

Эгер маалымат борборунун түтүн сыноосу күйүп кетсе, серверлер өчүрүлүшү керекпи?

Баарына салам! Менин атым Дмитрий Самсонов, мен жетектөөчү системалык администратор болуп иштейм "Odnoklassniki" Сүрөттө биздин долбоорду тейлеген жабдуулар орнотулган төрт маалымат борборлорунун бири көрсөтүлгөн. Бул дубалдардын артында 4 миңге жакын жабдуулар бар: серверлер, маалыматтарды сактоо системалары, тармактык жабдуулар ж.б. - биздин бардык жабдуулардын дээрлик ⅓.
Көпчүлүк серверлер Linux. Windowsдо (MS SQL) бир нече ондогон серверлер бар – бул биздин мурасыбыз, алардан биз көп жылдар бою системалуу түрдө баш тартып келе жатабыз.
Ошентип, 5-жылдын 2019-июнунда саат 14:35те биздин маалымат борборлорубуздун биринин инженерлери өрт сигнализациясын билдиришкен.

тануу

14:45. Маалымат борборлорунда майда түтүн окуялары сиз ойлогондон да көп кездешет. Залдардын ичиндеги көрсөткүчтөр нормалдуу болгондуктан, биздин биринчи реакциябыз салыштырмалуу тынч болду: алар өндүрүш менен иштөөгө тыюу салышты, башкача айтканда, кандайдыр бир конфигурацияны өзгөртүүгө, жаңы версияларды чыгарууга ж.б.у.с., бир нерсени оңдоого байланыштуу иштерден тышкары.

каары

Сиз өрт өчүрүүчүлөрдөн чатырда өрттүн так кай жерде болгонун билүүгө же кырдаалды баалоо үчүн өзүңүз күйүп жаткан чатырга чыгууга аракет кылдыңыз беле? Беш адам аркылуу алынган маалыматка ишенимдин деңгээли кандай болот?

14: 50. Өрт муздатуу системасына жакындап калганы тууралуу маалымат түшкөн. Бирок келеби? Дежурный система администратору бул маалымат борборунун алдыңкы бетинен тышкы трафикти алып салат.

Учурда биздин бардык кызматтардын фронттору үч дата борборунда кайталанат, балансташтыруу DNS деңгээлинде колдонулат, бул бизге бир маалымат борборунун даректерин DNSтен алып салууга мүмкүндүк берет, ошону менен колдонуучуларды кызматтарга жетүүдөгү мүмкүн болуучу көйгөйлөрдөн коргойт. . Эгер маалымат борборунда көйгөйлөр пайда болсо, ал автоматтык түрдө айланууну калтырат. Кененирээк бул жерден окуй аласыз: Одноклассникиде жүктөөнү теңдөө жана каталарга чыдамдуулук.

Өрт азырынча бизге эч кандай таасир эте элек – колдонуучулар да, жабдуулар да жабыркаган эмес. Бул кырсыкпы? Документтин биринчи бөлүмүндө “Кырсыктарга каршы аракеттердин планы” “Кырсык” түшүнүгүн аныктайт жана бөлүм төмөнкүдөй аяктайт:
«Кырсык болгонбу же жокпу деген шектенүүлөр болсо, анда бул кырсык!»

14:53. Өзгөчө кырдаалдар боюнча координатор дайындалды.

Координатор – бардык катышуучулардын ортосундагы байланышты көзөмөлдөгөн, кырсыктын масштабын баалаган, Авариялык иш-аракеттер планын колдонгон, керектүү персоналды тарткан, оңдоо иштеринин бүтүшүн көзөмөлдөгөн, эң негизгиси ар кандай тапшырмаларды тапшырган адам. Башкача айтканда, бул өзгөчө кырдаалды жоюу процессин башкарган адам.

аукцион

15:01. Биз өндүрүшкө тиешеси жок серверлерди өчүрө баштайбыз.
15:03. Биз бардык сакталган кызматтарды туура өчүрөбүз.
Буга фронттор (бул учурда колдонуучулар мындан ары кирбейт) жана алардын көмөкчү кызматтары (бизнес логикасы, кэш ж.б.) гана эмес, ошондой эле репликация фактору 2 же андан көп (Кассандра, экилик маалыматтарды сактоо, муздак сактоо, NewSQL жана башкалар.).
15: 06. Маалымат борборлорунун залдарынын бирине өрт коркунучу келип жатканы тууралуу маалымат түшкөн. Бул бөлмөдө бизде жабдыктар жок, бирок өрттүн чатырдан залдарга жайылып кетиши эмне болуп жатканын абдан өзгөртөт.
(Кийинчерээк залга физикалык коркунуч жок экени белгилүү болду, анткени ал чатырдан герметикалык жабылган. Коркунуч бул залдын муздатуу системасына гана болгон).
15:07. Биз кошумча текшерүүлөрсүз тездетилген режимде серверлерде буйрукту аткарууга уруксат беребиз (биздин сүйүктүү эсептегичсиз).
15:08. Залдарда температура нормалдуу чектерде.
15: 12. Залдарда температуранын жогорулашы катталды.
15:13. Маалымат борборундагы серверлердин жарымынан көбү өчүрүлгөн. уланталы.
15:16. Бардык жабдууларды өчүрүү чечими кабыл алынды.
15:21. Биз тиркемени жана операциялык системаны туура өчүрбөстөн жарандыгы жок серверлердин кубатын өчүрө баштайбыз.
15:23. MS SQL үчүн жооптуу адамдардын тобу бөлүнгөн (алардын саны аз, кызматтардын алардан көз карандылыгы чоң эмес, бирок функционалдуулукту калыбына келтирүү процедурасы көп убакытты талап кылат жана, мисалы, Кассандрага караганда татаалыраак).

депрессия

15: 25. 16 залдын төртөөндө (No6, 7, 8, 9) электр жарыгы өчүрүлгөнү тууралуу маалымат түшкөн. Биздин жабдуулар 7 жана 8-залдарда жайгашкан. Биздин эки зал (No1 жана 3) тууралуу маалымат жок.
Адатта, өрт учурунда электр энергиясы дароо өчүрүлөт, бирок бул учурда өрт өчүрүүчүлөрдүн жана маалымат борборунун техникалык персоналынын макулдашылган ишинин аркасында бардык жерде жана дароо эмес, зарылчылыкка жараша өчүрүлгөн.
(Кийинчерээк 8 ​​жана 9-залдарда электр энергиясы өчүрүлбөгөнү белгилүү болду).
15:28. Биз башка маалымат борборлорунун камдык көчүрмөлөрүнөн MS SQL маалымат базаларын жайылта баштайбыз.
Канча убакыт алат? Бардык каттам үчүн тармактын кубаттуулугу жетиштүүбү?
15: 37. Тармактын айрым бөлүктөрүнүн өчүрүлүшү катталган.
Башкаруу менен өндүрүш тармагы бири-биринен физикалык жактан обочолонгон. Эгерде өндүрүш тармагы бар болсо, анда сиз серверге барып, тиркемени токтотуп, ОСти өчүрө аласыз. Эгерде ал жок болсо, анда сиз IPMI аркылуу кирип, тиркемени токтотуп, ОСти өчүрө аласыз. Тармактардын бири да жок болсо, анда сиз эч нерсе кыла албайсыз. "Рахмат, капкак!", - деп ойлойсуң.
"Жана жалпысынан, башаламандык көп" деп ойлошуңар мүмкүн.
Кеп серверлер, атүгүл от жок болсо да, чоң жылуулукту жаратат. Тагыраак айтканда, муздатуу болгондо жылуулукту пайда кылышат, ал эми муздабай калганда тозоктогу тозокту жаратышат, ал эң жакшысы жабдуулардын бир бөлүгүн эрип, экинчи бөлүгүн өчүрөт, эң жаманы... залдын ичиндеги өрт, ал дээрлик бардыгын жок кылууга кепилдик берет.

Эгер маалымат борборунун түтүн сыноосу күйүп кетсе, серверлер өчүрүлүшү керекпи?

15:39. Биз conf маалымат базасындагы көйгөйлөрдү оңдойбуз.

conf маалымат базасы – бул бардык өндүрүш тиркемелери тарабынан орнотууларды тез өзгөртүү үчүн колдонулган бир эле аталыштагы кызматтын сервери. Бул базасыз биз порталдын ишин көзөмөлдөй албайбыз, бирок порталдын өзү иштей алат.

15:41. Негизги тармак жабдууларындагы температура сенсорлору максималдуу уруксат берилген көрсөткүчкө жакын көрсөткүчтөрдү жазышат. Бул бүтүндөй стеллажды ээлеген жана маалымат борборунун ичиндеги бардык тармактардын иштешин камсыз кылган куту.

Эгер маалымат борборунун түтүн сыноосу күйүп кетсе, серверлер өчүрүлүшү керекпи?

15:42. Маселени көзөмөлдөөчү жана вики жеткиликсиз, күтүү режимине өтүңүз.
Бул өндүрүш эмес, бирок кырсык болгон учурда, кандайдыр бир билим базасынын болушу өтө маанилүү болушу мүмкүн.
15:50. Мониторинг системаларынын бири өчүрүлгөн.
Алардын бир нечеси бар жана алар кызматтардын ар кандай аспектилери үчүн жооптуу. Алардын айрымдары ар бир маалымат борборунун ичинде автономдуу иштөө үчүн конфигурацияланган (башкача айтканда, алар өздөрүнүн гана маалымат борборун көзөмөлдөшөт), башкалары кандайдыр бир маалымат борборунун жоголушуна ачык түрдө аман калган бөлүштүрүлгөн компоненттерден турат.
Бул учурда ал иштебей калды бизнес логикалык көрсөткүчтөр аномалия аныктоо системасы, мастер-күтүү режиминде иштейт. Күтүү режимине которулду.

таануу

15:51. MS SQLден башка бардык серверлер IPMI аркылуу туура өчүрүлбөй өчүрүлгөн.
Керек болсо IPMI аркылуу серверди массалык башкарууга даярсызбы?

Бул этапта маалымат борборундагы жабдууларды куткаруу аяктаган учур. Колдонууга мүмкүн болгон нерселердин баары аткарылды. Кээ бир кесиптештер эс алат.
16: 13. Чатырда кондиционерлердин фреон түтүктөрү жарылып кеткени тууралуу маалымат келип түшкөн - бул өрт өчүрүлгөндөн кийин маалымат борборунун ишке киришин кечеңдетет.
16:19. Дата борборунун техникалык кызматкерлеринен алынган маалыматка караганда, залдарда температуранын жогорулашы токтоду.
17:10. conf маалымат базасы калыбына келтирилди. Эми биз колдонмонун жөндөөлөрүн өзгөртө алабыз.
Эгер бардыгы каталарга чыдамдуу болсо жана бир маалымат борборусуз иштесе, бул эмне үчүн абдан маанилүү?
Биринчиден, баары эле күнөөгө чыдай бербейт. Дата борборунун иштен чыгуусунан али чыга элек ар кандай экинчи кызматтар бар жана мастер-күтүү режиминде маалымат базалары бар. Орнотууларды башкаруу жөндөмү катаал шарттарда да колдонуучуларга кырсыктын кесепеттерин азайтуу үчүн зарыл болгон нерселердин бардыгын жасоого мүмкүндүк берет.
Экинчиден, жакынкы сааттарда маалымат борборунун иштеши толук калыбына келбей турганы белгилүү болду, ошондуктан репликалардын узак мөөнөткө жеткиликсиздиги компьютердеги толгон дисктер сыяктуу кошумча көйгөйлөргө алып келбеши үчүн чараларды көрүү зарыл болду. калган маалымат борборлору.
17:29. Пицца убактысы! Биз роботторду эмес, адамдарды иштетебиз.

Эгер маалымат борборунун түтүн сыноосу күйүп кетсе, серверлер өчүрүлүшү керекпи?

калыбына келтирүү

18:02. No 8 (биздики), 9, 10 жана 11-залдарда температура турукташты. Оффлайн режиминде калгандардын биринде (№7) биздин жабдуулар жайгашкан жана ал жактагы температура көтөрүлө берет.
18:31. Алар No 1 жана 3-залдардагы жабдууларды ишке киргизууге уруксат беришти — бул залдар ерттен жапа чеккен жок.

Учурда No1, 3, 8-залдарда эң оор залдардан баштап серверлер ишке киргизилүүдө. Бардык иштеп жаткан кызматтардын туура иштеши текшерилет. Ал эми No7 залда дагы эле көйгөйлөр бар.

18:44. Дата борборунун техникалык кызматкерлери №7 бөлмөдө (ал жерде биздин жабдуулар гана жайгашкан) көптөгөн серверлер өчүрүлбөгөнүн аныкташкан. Биздин маалыматтар боюнча, ал жерде 26 сервер онлайн бойдон калууда. Экинчи текшерүүдөн кийин биз 58 серверди табабыз.
20:18. Маалымат борборунун техниктери кондиционери жок бөлмө аркылуу коридор аркылуу өткөн мобилдик каналдар аркылуу абаны үйлөтүшөт.
23:08. Биринчи админ үйгө жөнөтүлдү. Эртеңки жумушту улантыш үчүн кимдир бирөө түнкүсүн укташ керек. Кийинки, биз дагы бир нече администраторлорду жана иштеп чыгуучуларды чыгарабыз.
02:56. Биз ишке киргизе турган нерселердин баарын ишке киргиздик. Биз автоматтык тесттер аркылуу бардык кызматтарды көп текшеребиз.

Эгер маалымат борборунун түтүн сыноосу күйүп кетсе, серверлер өчүрүлүшү керекпи?

03:02. Акыркы, 7-залдагы кондиционер калыбына келтирилди.
03:36. Биз маалымат борборундагы фронтторду DNSде айланттык. Ушул учурдан тартып колдонуучу трафиги келе баштайт.
Административдик топтун көбүн үйлөрүнө жөнөтүп жатабыз. Бирок биз бир нече адамды артка калтырабыз.

Чакан көп берилүүчү суроолор:
С: 18:31ден 02:56га чейин эмне болду?
Ж: “Кырсыктарга каршы аракеттенүү планына” ылайык, биз эң маанилүү кызматтардан баштап бардык кызматтарды ишке киргизебиз. Бул учурда чатта координатор кызматты акысыз администраторго берет, ал ОС жана тиркеме иштей баштаганын, каталар бар-жоктугун жана көрсөткүчтөрдүн нормалдуу экендигин текшерет. Ишке киргизүү аяктагандан кийин, ал чатта бош экенин жана координатордон жаңы кызматты алат деп кабарлайт.
Процесс иштебей калган жабдыктардан улам жайлатат. ОСту токтотуу жана серверлерди өчүрүү туура болгон күндө да, кээ бир серверлер дисктердин, эстутумдардын жана шассилердин капысынан иштен кетишинен улам кайтып келбейт. Электр энергиясы өчүп калганда, иштен чыгуу ылдамдыгы жогорулайт.
С: Эмне үчүн бардыгын бир эле учурда иштетип, анан мониторингде пайда болгон нерсени оңдой албайсыз?
Ж: Баары акырындык менен жасалышы керек, анткени кызматтардын ортосунда көз карандылык бар. Жана бардыгын мониторингди күтпөстөн, дароо текшериш керек – анткени көйгөйлөрдүн начарлашын күтпөстөн, дароо чечкен жакшы.

7:40. Акыркы админ (координатор) уктап кетти. Биринчи кундун иши аяктады.
8:09. Биринчи иштеп чыгуучулар, маалымат борборунун инженерлери жана администраторлору (анын ичинде жаңы координатор) калыбына келтирүү иштерин баштады.
09:37. No7 залды (акыркысы) көтөрө баштадык.
Ошол эле учурда биз башка бөлмөлөрдө оңдолбогон нерселерди калыбына келтирүүнү улантып жатабыз: дисктерди/эстутумду/серверлерди алмаштыруу, мониторингде “күйүп кеткен” нерселердин бардыгын оңдоо, мастер-күтүү схемаларындагы ролдорду кайра алмаштыруу жана башка майда нерселер, алар бар. ошентсе да абдан көп.
17:08. Биз өндүрүш менен бардык үзгүлтүксүз иштөөгө мүмкүндүк берет.
21:45. Экинчи кундун иши аяктады.
09:45. Бүгүн жума. Мониторингде дагы деле анча-мынча көйгөйлөр бар. Алдыда дем алыш күн, баары эс алууну каалайт. Колубуздан келгендин баарын массалык түрдө оңдоону улантабыз. Кийинкиге калтырылышы мүмкүн болгон кадимки администратордук тапшырмалар кийинкиге калтырылды. Координатор жаңы.
15:40. БАШКА маалымат борборунда күтүлбөгөн жерден Негизги тармак жабдууларынын стекинин жарымы кайра иштетилди. Тобокелдиктерди азайтуу үчүн фронттор ротациядан чыгарылды. Колдонуучулар үчүн эч кандай эффект жок. Кийинчерээк ал бузулган шасси экени белгилүү болду. Координатор бир убакта эки аварияны оңдоонун үстүндө иштеп жатат.
17:17. Башка маалымат борборунда тармактын иштеши калыбына келтирилди, бардыгы текшерилди. Маалымат борбору ротацияга киргизилген.
18:29. Үчүнчү күндөгү жумуш жана жалпысынан авариядан кийинки калыбына келтирүү иштери аяктады.

аягы

04.04.2013 404 ката күнү, "Классташтар" эң чоң кырсыктан аман калган —үч күн бою портал толук же жарым-жартылай жеткиликсиз болду. Бул убакыттын ичинде ар кайсы шаарлардан, ар кайсы компаниялардан келген 100дөн ашык адам (дагы чоң рахмат!), алыстан жана түз маалымат борборлорунда, кол менен жана автоматтык түрдө миңдеген серверлерди оңдоп беришти.
Биз жыйынтык чыгардык. Мындай көрүнүш кайталанбашы үчүн биз бүгүнкү күнгө чейин кеңири иштерди жүргүзүп келдик жана жүргүзүп жатабыз.

Азыркы кырсык менен 404түн негизги айырмачылыктары эмнеде?

  • Бизде “Кырсыктарга каршы аракеттенүү планы” бар. Кварталда бир жолу көнүгүүлөрдү өткөрөбүз - өзгөчө кырдаалдын ролун ойнойбуз, аны администраторлор тобу (баары өз кезегинде) “Өзгөчө иш-аракеттер планы” аркылуу жоюуга тийиш. Алдыңкы системалык администраторлор координатордун ролун кезектешип аткарышат.
  • Чейрек сайын тесттик режимде биз маалымат борборлорун (баары өз кезегинде) LAN жана WAN тармактары аркылуу бөлүп турабыз, бул бизге тоскоолдуктарды тез арада аныктоого мүмкүндүк берет.
  • Азыраак сынган дисктер, анткени биз стандарттарды күчөттүк: азыраак иштөө сааттары, SMART үчүн катуу босоголор,
  • Серверди өчүрүп күйгүзгөндөн кийин калыбына келтирүү үчүн көп убакытты талап кылган эски жана туруксуз маалымат базасы болгон BerkeleyDBдан толугу менен баш тарттык.
  • Биз MS SQL менен серверлердин санын кыскарттык жана калгандарынан көз карандылыкты азайттык.
  • Биздин өзүбүздүн булут - бир булут, анда биз эки жылдан бери бардык кызматтарды активдүү көчүрүп келе жатабыз. Булут тиркеме менен иштөөнүн бардык циклин абдан жөнөкөйлөтөт жана кырсык болгон учурда ал төмөнкүдөй уникалдуу куралдар менен камсыз кылат:
    • бир чыкылдатуу менен бардык тиркемелерди туура токтотуу;
    • иштебей калган серверлерден тиркемелерди оңой көчүрүү;
    • автоматтык рейтингдик (кызмат көрсөтүүлөрдүн артыкчылыктуулугу боюнча) бүтүндөй маалымат борборун ишке киргизүү.

Бул макалада сүрөттөлгөн кырсык 404-күндөн берки эң чоң кырсык болду. Албетте, баары ойдогудай болгон жок. Мисалы, башка маалымат борборунда өрттөн жабыркаган маалымат борбору жок болгон учурда серверлердин бириндеги диск иштебей калган, башкача айтканда, Кассандра кластериндеги үч репликанын бирөө гана жеткиликтүү бойдон калган, ошондуктан мобилдик байланыштын 4,2%ы колдонмонун колдонуучулары кире алышкан жок. Ошол эле учурда, буга чейин туташкан колдонуучулар ишин улантышкан. Жалпысынан, кырсыктын натыйжасында 30дан ашык көйгөйлөр аныкталган - баналдык мүчүлүштүктөрдөн тартып сервис архитектурасындагы кемчиликтерге чейин.

Бирок азыркы авария менен 404-чи окуянын эң негизги айырмасы, биз өрттүн кесепеттерин жоюп жатканыбызда, колдонуучулар дагы эле СМС жазышып, видео чалууларды жасап жатышты. Так, оюн ойноп, музыка угуп, бири-бирине белек берип, видео, сериал, телеканалдарды көрүштү OK, ошондой эле агылып кирди OK Live.

Сиздин кырсыктар кандай өтүп жатат?

Source: www.habr.com

Комментарий кошуу