ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹೊಗೆ ಪರೀಕ್ಷೆಗೆ ಬೆಂಕಿ ಬಿದ್ದರೆ ಸರ್ವರ್‌ಗಳು ನಂದಿಸಬೇಕೆ?

ಒಂದು ಉತ್ತಮ ಬೇಸಿಗೆಯ ದಿನ ನಿಮ್ಮ ಸಲಕರಣೆಗಳೊಂದಿಗೆ ಡೇಟಾ ಸೆಂಟರ್ ಈ ರೀತಿ ಕಂಡುಬಂದರೆ ನಿಮಗೆ ಏನನಿಸುತ್ತದೆ?

ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹೊಗೆ ಪರೀಕ್ಷೆಗೆ ಬೆಂಕಿ ಬಿದ್ದರೆ ಸರ್ವರ್‌ಗಳು ನಂದಿಸಬೇಕೆ?

ಎಲ್ಲರಿಗು ನಮಸ್ಖರ! ನನ್ನ ಹೆಸರು ಡಿಮಿಟ್ರಿ ಸ್ಯಾಮ್ಸೊನೊವ್, ನಾನು ಪ್ರಮುಖ ಸಿಸ್ಟಮ್ ಅಡ್ಮಿನಿಸ್ಟ್ರೇಟರ್ ಆಗಿ ಕೆಲಸ ಮಾಡುತ್ತೇನೆ "ಸಹಪಾಠಿಗಳು" ನಮ್ಮ ಪ್ರಾಜೆಕ್ಟ್‌ಗೆ ಸೇವೆ ಸಲ್ಲಿಸುವ ಉಪಕರಣಗಳನ್ನು ಸ್ಥಾಪಿಸಲಾಗಿರುವ ನಾಲ್ಕು ಡೇಟಾ ಕೇಂದ್ರಗಳಲ್ಲಿ ಒಂದನ್ನು ಫೋಟೋ ತೋರಿಸುತ್ತದೆ. ಈ ಗೋಡೆಗಳ ಹಿಂದೆ ಸುಮಾರು 4 ಸಾವಿರ ಉಪಕರಣಗಳಿವೆ: ಸರ್ವರ್ಗಳು, ಡೇಟಾ ಶೇಖರಣಾ ವ್ಯವಸ್ಥೆಗಳು, ನೆಟ್ವರ್ಕ್ ಉಪಕರಣಗಳು, ಇತ್ಯಾದಿ. - ನಮ್ಮ ಎಲ್ಲಾ ಉಪಕರಣಗಳಲ್ಲಿ ಬಹುತೇಕ ⅓.
ಹೆಚ್ಚಿನ ಸರ್ವರ್‌ಗಳು ಲಿನಕ್ಸ್. ವಿಂಡೋಸ್ (MS SQL) ನಲ್ಲಿ ಹಲವಾರು ಡಜನ್ ಸರ್ವರ್‌ಗಳಿವೆ - ನಮ್ಮ ಪರಂಪರೆ, ಇದನ್ನು ನಾವು ಹಲವು ವರ್ಷಗಳಿಂದ ವ್ಯವಸ್ಥಿತವಾಗಿ ತ್ಯಜಿಸುತ್ತಿದ್ದೇವೆ.
ಆದ್ದರಿಂದ, ಜೂನ್ 5, 2019 ರಂದು 14:35 ಕ್ಕೆ, ನಮ್ಮ ಡೇಟಾ ಕೇಂದ್ರವೊಂದರಲ್ಲಿ ಇಂಜಿನಿಯರ್‌ಗಳು ಬೆಂಕಿಯ ಎಚ್ಚರಿಕೆಯನ್ನು ವರದಿ ಮಾಡಿದ್ದಾರೆ.

ನಿರಾಕರಣೆ

14:45. ಡೇಟಾ ಕೇಂದ್ರಗಳಲ್ಲಿ ಸಣ್ಣ ಹೊಗೆ ಘಟನೆಗಳು ನೀವು ಯೋಚಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸಾಮಾನ್ಯವಾಗಿದೆ. ಸಭಾಂಗಣಗಳೊಳಗಿನ ಸೂಚಕಗಳು ಸಾಮಾನ್ಯವಾಗಿದ್ದವು, ಆದ್ದರಿಂದ ನಮ್ಮ ಮೊದಲ ಪ್ರತಿಕ್ರಿಯೆ ತುಲನಾತ್ಮಕವಾಗಿ ಶಾಂತವಾಗಿತ್ತು: ಅವರು ಉತ್ಪಾದನೆಯೊಂದಿಗೆ ಕೆಲಸದ ಮೇಲೆ ನಿಷೇಧವನ್ನು ಪರಿಚಯಿಸಿದರು, ಅಂದರೆ, ಯಾವುದೇ ಕಾನ್ಫಿಗರೇಶನ್ ಬದಲಾವಣೆಗಳು, ಹೊಸ ಆವೃತ್ತಿಗಳನ್ನು ಹೊರತರುವುದು ಇತ್ಯಾದಿ., ಏನನ್ನಾದರೂ ಸರಿಪಡಿಸಲು ಸಂಬಂಧಿಸಿದ ಕೆಲಸವನ್ನು ಹೊರತುಪಡಿಸಿ.

ಕ್ರೋಧ

ಮೇಲ್ಛಾವಣಿಯ ಮೇಲೆ ಬೆಂಕಿ ಎಲ್ಲಿ ಸಂಭವಿಸಿದೆ ಎಂಬುದನ್ನು ಅಗ್ನಿಶಾಮಕ ದಳದಿಂದ ಕಂಡುಹಿಡಿಯಲು ಅಥವಾ ಪರಿಸ್ಥಿತಿಯನ್ನು ನಿರ್ಣಯಿಸಲು ನೀವೇ ಸುಡುವ ಛಾವಣಿಯ ಮೇಲೆ ಹೋಗಲು ನೀವು ಎಂದಾದರೂ ಪ್ರಯತ್ನಿಸಿದ್ದೀರಾ? ಐದು ಜನರ ಮೂಲಕ ಪಡೆದ ಮಾಹಿತಿಯ ಮೇಲಿನ ನಂಬಿಕೆಯ ಮಟ್ಟ ಎಷ್ಟು?

14: 50. ಕೂಲಿಂಗ್ ವ್ಯವಸ್ಥೆಗೆ ಬೆಂಕಿ ಸಮೀಪಿಸುತ್ತಿದೆ ಎಂಬ ಮಾಹಿತಿ ಬಂದಿದೆ. ಆದರೆ ಬರುವುದೇ? ಕರ್ತವ್ಯದಲ್ಲಿರುವ ಸಿಸ್ಟಮ್ ನಿರ್ವಾಹಕರು ಈ ಡೇಟಾ ಸೆಂಟರ್‌ನ ಮುಂಭಾಗದಿಂದ ಬಾಹ್ಯ ದಟ್ಟಣೆಯನ್ನು ತೆಗೆದುಹಾಕುತ್ತಾರೆ.

ಈ ಸಮಯದಲ್ಲಿ, ನಮ್ಮ ಎಲ್ಲಾ ಸೇವೆಗಳ ಮುಂಭಾಗಗಳನ್ನು ಮೂರು ಡೇಟಾ ಕೇಂದ್ರಗಳಲ್ಲಿ ನಕಲು ಮಾಡಲಾಗಿದೆ, ಸಮತೋಲನವನ್ನು DNS ಮಟ್ಟದಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ, ಇದು DNS ನಿಂದ ಒಂದು ಡೇಟಾ ಕೇಂದ್ರದ ವಿಳಾಸಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ, ಇದರಿಂದಾಗಿ ಸೇವೆಗಳಿಗೆ ಪ್ರವೇಶದೊಂದಿಗೆ ಸಂಭಾವ್ಯ ಸಮಸ್ಯೆಗಳಿಂದ ಬಳಕೆದಾರರನ್ನು ರಕ್ಷಿಸುತ್ತದೆ. . ಡೇಟಾ ಕೇಂದ್ರದಲ್ಲಿ ಸಮಸ್ಯೆಗಳು ಈಗಾಗಲೇ ಸಂಭವಿಸಿದಲ್ಲಿ, ಅದು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ತಿರುಗುವಿಕೆಯನ್ನು ಬಿಡುತ್ತದೆ. ನೀವು ಇಲ್ಲಿ ಇನ್ನಷ್ಟು ಓದಬಹುದು: ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿಯಲ್ಲಿ ಲೋಡ್ ಬ್ಯಾಲೆನ್ಸಿಂಗ್ ಮತ್ತು ತಪ್ಪು ಸಹಿಷ್ಣುತೆ.

ಬೆಂಕಿಯು ನಮಗೆ ಇನ್ನೂ ಯಾವುದೇ ರೀತಿಯಲ್ಲಿ ಪರಿಣಾಮ ಬೀರಿಲ್ಲ - ಬಳಕೆದಾರರಿಗೆ ಅಥವಾ ಉಪಕರಣಗಳಿಗೆ ಹಾನಿಯಾಗಿಲ್ಲ. ಇದು ಅಪಘಾತವೇ? "ಅಪಘಾತ ಕ್ರಿಯಾ ಯೋಜನೆ" ಡಾಕ್ಯುಮೆಂಟ್ನ ಮೊದಲ ವಿಭಾಗವು "ಅಪಘಾತ" ಪರಿಕಲ್ಪನೆಯನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುತ್ತದೆ ಮತ್ತು ವಿಭಾಗವು ಈ ರೀತಿ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ:
«ಅಪಘಾತವಾಗಿದೆಯೋ ಇಲ್ಲವೋ ಎಂಬ ಅನುಮಾನ ಬಂದರೆ ಅದು ಅಪಘಾತವೇ!»

14:53. ತುರ್ತು ಸಂಯೋಜಕರನ್ನು ನೇಮಿಸಲಾಗಿದೆ.

ಸಂಯೋಜಕರು ಎಲ್ಲಾ ಭಾಗವಹಿಸುವವರ ನಡುವಿನ ಸಂವಹನವನ್ನು ನಿಯಂತ್ರಿಸುವ ವ್ಯಕ್ತಿಯಾಗಿದ್ದು, ಅಪಘಾತದ ಪ್ರಮಾಣವನ್ನು ನಿರ್ಣಯಿಸುತ್ತಾರೆ, ತುರ್ತು ಕ್ರಿಯಾ ಯೋಜನೆಯನ್ನು ಬಳಸುತ್ತಾರೆ, ಅಗತ್ಯ ಸಿಬ್ಬಂದಿಯನ್ನು ಆಕರ್ಷಿಸುತ್ತಾರೆ, ದುರಸ್ತಿ ಪೂರ್ಣಗೊಳಿಸುವಿಕೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತಾರೆ ಮತ್ತು ಮುಖ್ಯವಾಗಿ, ಯಾವುದೇ ಕಾರ್ಯಗಳನ್ನು ನಿಯೋಜಿಸುತ್ತಾರೆ. ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಇದು ಸಂಪೂರ್ಣ ತುರ್ತು ಪ್ರತಿಕ್ರಿಯೆ ಪ್ರಕ್ರಿಯೆಯನ್ನು ನಿರ್ವಹಿಸುವ ವ್ಯಕ್ತಿ.

ಚೌಕಾಶಿ

15:01. ಉತ್ಪಾದನೆಗೆ ಸಂಬಂಧಿಸದ ಸರ್ವರ್‌ಗಳನ್ನು ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಲು ನಾವು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ.
15:03. ನಾವು ಎಲ್ಲಾ ಕಾಯ್ದಿರಿಸಿದ ಸೇವೆಗಳನ್ನು ಸರಿಯಾಗಿ ಆಫ್ ಮಾಡುತ್ತೇವೆ.
ಇದು ಮುಂಭಾಗಗಳು (ಈ ಹಂತದಲ್ಲಿ ಬಳಕೆದಾರರು ಇನ್ನು ಮುಂದೆ ಪ್ರವೇಶಿಸುವುದಿಲ್ಲ) ಮತ್ತು ಅವರ ಸಹಾಯಕ ಸೇವೆಗಳು (ವ್ಯಾಪಾರ ತರ್ಕ, ಕ್ಯಾಶ್‌ಗಳು, ಇತ್ಯಾದಿ), ಆದರೆ ಪ್ರತಿಕೃತಿ ಅಂಶ 2 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ವಿವಿಧ ಡೇಟಾಬೇಸ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ (ಕಸ್ಸಂದ್ರ, ಬೈನರಿ ಡೇಟಾ ಸಂಗ್ರಹಣೆ, ಶೀತಲ ಶೇಖರಣೆ, NewSQL ಇತ್ಯಾದಿ).
15: 06. ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹಾಲ್ ಒಂದಕ್ಕೆ ಬೆಂಕಿ ಅವಘಡ ಸಂಭವಿಸುತ್ತಿರುವ ಬಗ್ಗೆ ಮಾಹಿತಿ ಲಭಿಸಿದೆ. ಈ ಕೋಣೆಯಲ್ಲಿ ನಾವು ಉಪಕರಣಗಳನ್ನು ಹೊಂದಿಲ್ಲ, ಆದರೆ ಬೆಂಕಿಯು ಛಾವಣಿಯಿಂದ ಸಭಾಂಗಣಗಳಿಗೆ ಹರಡಬಹುದು ಎಂಬ ಅಂಶವು ಏನಾಗುತ್ತಿದೆ ಎಂಬುದರ ಚಿತ್ರವನ್ನು ಬಹಳವಾಗಿ ಬದಲಾಯಿಸುತ್ತದೆ.
(ಹಾಲ್‌ಗೆ ಯಾವುದೇ ಭೌತಿಕ ಬೆದರಿಕೆ ಇಲ್ಲ ಎಂದು ನಂತರ ತಿಳಿದುಬಂದಿದೆ, ಏಕೆಂದರೆ ಅದನ್ನು ಛಾವಣಿಯಿಂದ ಹರ್ಮೆಟಿಕ್ ಆಗಿ ಮುಚ್ಚಲಾಗಿದೆ. ಈ ಹಾಲ್‌ನ ಕೂಲಿಂಗ್ ವ್ಯವಸ್ಥೆಗೆ ಮಾತ್ರ ಬೆದರಿಕೆ ಇತ್ತು.)
15:07. ಹೆಚ್ಚುವರಿ ಪರಿಶೀಲನೆಗಳಿಲ್ಲದೆಯೇ ನಾವು ಸರ್ವರ್‌ಗಳಲ್ಲಿ ಕಮಾಂಡ್ ಎಕ್ಸಿಕ್ಯೂಶನ್ ಅನ್ನು ವೇಗವರ್ಧಿತ ಮೋಡ್‌ನಲ್ಲಿ ಅನುಮತಿಸುತ್ತೇವೆ (ನಮ್ಮ ನೆಚ್ಚಿನ ಕ್ಯಾಲ್ಕುಲೇಟರ್ ಇಲ್ಲದೆ).
15:08. ಸಭಾಂಗಣಗಳಲ್ಲಿನ ತಾಪಮಾನವು ಸಾಮಾನ್ಯ ಮಿತಿಗಳಲ್ಲಿದೆ.
15: 12. ಸಭಾಂಗಣಗಳಲ್ಲಿ ತಾಪಮಾನದಲ್ಲಿ ಹೆಚ್ಚಳ ದಾಖಲಾಗಿದೆ.
15:13. ಡೇಟಾ ಸೆಂಟರ್‌ನಲ್ಲಿ ಅರ್ಧಕ್ಕಿಂತ ಹೆಚ್ಚು ಸರ್ವರ್‌ಗಳನ್ನು ಆಫ್ ಮಾಡಲಾಗಿದೆ. ಮುಂದುವರೆಸೋಣ.
15:16. ಎಲ್ಲಾ ಉಪಕರಣಗಳನ್ನು ಆಫ್ ಮಾಡಲು ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ.
15:21. ಅಪ್ಲಿಕೇಶನ್ ಮತ್ತು ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಮ್ ಅನ್ನು ಸರಿಯಾಗಿ ಮುಚ್ಚದೆಯೇ ನಾವು ಸ್ಥಿತಿಯಿಲ್ಲದ ಸರ್ವರ್‌ಗಳಿಗೆ ವಿದ್ಯುತ್ ಅನ್ನು ಆಫ್ ಮಾಡಲು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ.
15:23. MS SQL ಗೆ ಜವಾಬ್ದಾರರಾಗಿರುವ ಜನರ ಗುಂಪನ್ನು ನಿಯೋಜಿಸಲಾಗಿದೆ (ಅವುಗಳಲ್ಲಿ ಕೆಲವು ಇವೆ, ಅವುಗಳ ಮೇಲೆ ಸೇವೆಗಳ ಅವಲಂಬನೆಯು ಉತ್ತಮವಾಗಿಲ್ಲ, ಆದರೆ ಕಾರ್ಯವನ್ನು ಪುನಃಸ್ಥಾಪಿಸುವ ವಿಧಾನವು ಹೆಚ್ಚು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಉದಾಹರಣೆಗೆ, ಕಸ್ಸಂದ್ರಕ್ಕಿಂತ ಹೆಚ್ಚು ಜಟಿಲವಾಗಿದೆ).

ಖಿನ್ನತೆ

15: 25. 16ರಲ್ಲಿ (ಸಂ. 6, 7, 8, 9) ನಾಲ್ಕು ಸಭಾಂಗಣಗಳಲ್ಲಿ ವಿದ್ಯುತ್ ಸ್ಥಗಿತಗೊಂಡಿರುವ ಬಗ್ಗೆ ಮಾಹಿತಿ ಪಡೆಯಲಾಗಿದೆ. ನಮ್ಮ ಉಪಕರಣಗಳು 7 ಮತ್ತು 8 ಸಭಾಂಗಣಗಳಲ್ಲಿವೆ. ನಮ್ಮ ಎರಡು ಸಭಾಂಗಣಗಳ (ಸಂ. 1 ಮತ್ತು 3) ಬಗ್ಗೆ ಯಾವುದೇ ಮಾಹಿತಿ ಇಲ್ಲ.
ಸಾಮಾನ್ಯವಾಗಿ, ಬೆಂಕಿಯ ಸಮಯದಲ್ಲಿ, ವಿದ್ಯುತ್ ಸರಬರಾಜನ್ನು ತಕ್ಷಣವೇ ಆಫ್ ಮಾಡಲಾಗುತ್ತದೆ, ಆದರೆ ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಅಗ್ನಿಶಾಮಕ ದಳದ ಸಿಬ್ಬಂದಿ ಮತ್ತು ಡೇಟಾ ಸೆಂಟರ್ನ ತಾಂತ್ರಿಕ ಸಿಬ್ಬಂದಿಗಳ ಸಂಘಟಿತ ಕೆಲಸಕ್ಕೆ ಧನ್ಯವಾದಗಳು, ಅದು ಎಲ್ಲೆಡೆ ಆಫ್ ಆಗಲಿಲ್ಲ ಮತ್ತು ತಕ್ಷಣವೇ ಅಲ್ಲ, ಆದರೆ ಅಗತ್ಯ.
(ಹಾಲ್ 8 ಮತ್ತು 9 ರಲ್ಲಿ ವಿದ್ಯುತ್ ಅನ್ನು ಆಫ್ ಮಾಡಲಾಗಿಲ್ಲ ಎಂದು ನಂತರ ಕಂಡುಹಿಡಿಯಲಾಯಿತು.)
15:28. ನಾವು ಇತರ ಡೇಟಾ ಕೇಂದ್ರಗಳಲ್ಲಿ ಬ್ಯಾಕಪ್‌ಗಳಿಂದ MS SQL ಡೇಟಾಬೇಸ್‌ಗಳನ್ನು ನಿಯೋಜಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತಿದ್ದೇವೆ.
ಎಷ್ಟು ಸಮಯ ಬೇಕಾಗುತ್ತದೆ? ಸಂಪೂರ್ಣ ಮಾರ್ಗಕ್ಕೆ ಸಾಕಷ್ಟು ನೆಟ್‌ವರ್ಕ್ ಸಾಮರ್ಥ್ಯವಿದೆಯೇ?
15: 37. ನೆಟ್ವರ್ಕ್ನ ಕೆಲವು ಭಾಗಗಳ ಸ್ಥಗಿತವನ್ನು ದಾಖಲಿಸಲಾಗಿದೆ.
ನಿರ್ವಹಣೆ ಮತ್ತು ಉತ್ಪಾದನಾ ಜಾಲವು ಭೌತಿಕವಾಗಿ ಪರಸ್ಪರ ಪ್ರತ್ಯೇಕವಾಗಿದೆ. ಉತ್ಪಾದನಾ ನೆಟ್‌ವರ್ಕ್ ಲಭ್ಯವಿದ್ದರೆ, ನೀವು ಸರ್ವರ್‌ಗೆ ಹೋಗಬಹುದು, ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ನಿಲ್ಲಿಸಬಹುದು ಮತ್ತು ಓಎಸ್ ಅನ್ನು ಆಫ್ ಮಾಡಬಹುದು. ಅದು ಲಭ್ಯವಿಲ್ಲದಿದ್ದರೆ, ನೀವು IPMI ಮೂಲಕ ಲಾಗ್ ಇನ್ ಮಾಡಬಹುದು, ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ನಿಲ್ಲಿಸಿ ಮತ್ತು OS ಅನ್ನು ಆಫ್ ಮಾಡಬಹುದು. ನೆಟ್‌ವರ್ಕ್‌ಗಳು ಯಾವುದೂ ಇಲ್ಲದಿದ್ದರೆ, ನೀವು ಏನನ್ನೂ ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ. "ಧನ್ಯವಾದಗಳು, ಕ್ಯಾಪ್!", ನೀವು ಯೋಚಿಸುತ್ತೀರಿ.
"ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ, ಸಾಕಷ್ಟು ಪ್ರಕ್ಷುಬ್ಧತೆ ಇದೆ," ನೀವು ಯೋಚಿಸಬಹುದು.
ವಿಷಯವೆಂದರೆ ಸರ್ವರ್ಗಳು, ಬೆಂಕಿಯಿಲ್ಲದಿದ್ದರೂ, ದೊಡ್ಡ ಪ್ರಮಾಣದ ಶಾಖವನ್ನು ಉತ್ಪಾದಿಸುತ್ತವೆ. ಹೆಚ್ಚು ನಿಖರವಾಗಿ, ತಂಪಾಗಿಸುವಾಗ, ಅವು ಶಾಖವನ್ನು ಉತ್ಪತ್ತಿ ಮಾಡುತ್ತವೆ, ಮತ್ತು ತಂಪಾಗಿಸುವಿಕೆ ಇಲ್ಲದಿದ್ದಾಗ, ಅವರು ನರಕದ ನರಕವನ್ನು ಸೃಷ್ಟಿಸುತ್ತಾರೆ, ಇದು ಉಪಕರಣದ ಭಾಗವನ್ನು ಕರಗಿಸುತ್ತದೆ ಮತ್ತು ಇನ್ನೊಂದು ಭಾಗವನ್ನು ಆಫ್ ಮಾಡುತ್ತದೆ ಮತ್ತು ಕೆಟ್ಟದಾಗಿ ... ಒಳಗೆ ಬೆಂಕಿಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಹಾಲ್, ಇದು ಎಲ್ಲವನ್ನೂ ನಾಶಮಾಡಲು ಬಹುತೇಕ ಖಾತರಿಪಡಿಸುತ್ತದೆ.

ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹೊಗೆ ಪರೀಕ್ಷೆಗೆ ಬೆಂಕಿ ಬಿದ್ದರೆ ಸರ್ವರ್‌ಗಳು ನಂದಿಸಬೇಕೆ?

15:39. ನಾವು conf ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುತ್ತೇವೆ.

conf ಡೇಟಾಬೇಸ್ ಅದೇ ಹೆಸರಿನ ಸೇವೆಯ ಬ್ಯಾಕೆಂಡ್ ಆಗಿದೆ, ಇದು ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಬದಲಾಯಿಸಲು ಎಲ್ಲಾ ಉತ್ಪಾದನಾ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಂದ ಬಳಸಲ್ಪಡುತ್ತದೆ. ಈ ಬೇಸ್ ಇಲ್ಲದೆ, ನಾವು ಪೋರ್ಟಲ್ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ನಿಯಂತ್ರಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಆದರೆ ಪೋರ್ಟಲ್ ಸ್ವತಃ ಕೆಲಸ ಮಾಡಬಹುದು.

15:41. ಕೋರ್ ನೆಟ್‌ವರ್ಕ್ ಉಪಕರಣಗಳಲ್ಲಿನ ತಾಪಮಾನ ಸಂವೇದಕಗಳು ಗರಿಷ್ಠ ಅನುಮತಿಸುವ ರೀಡಿಂಗ್‌ಗಳನ್ನು ದಾಖಲಿಸುತ್ತವೆ. ಇದು ಸಂಪೂರ್ಣ ರ್ಯಾಕ್ ಅನ್ನು ಆಕ್ರಮಿಸುವ ಪೆಟ್ಟಿಗೆಯಾಗಿದೆ ಮತ್ತು ಡೇಟಾ ಕೇಂದ್ರದೊಳಗಿನ ಎಲ್ಲಾ ನೆಟ್‌ವರ್ಕ್‌ಗಳ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ.

ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹೊಗೆ ಪರೀಕ್ಷೆಗೆ ಬೆಂಕಿ ಬಿದ್ದರೆ ಸರ್ವರ್‌ಗಳು ನಂದಿಸಬೇಕೆ?

15:42. ಸಂಚಿಕೆ ಟ್ರ್ಯಾಕರ್ ಮತ್ತು ವಿಕಿ ಲಭ್ಯವಿಲ್ಲ, ಸ್ಟ್ಯಾಂಡ್‌ಬೈಗೆ ಬದಲಿಸಿ.
ಇದು ಉತ್ಪಾದನೆಯಲ್ಲ, ಆದರೆ ಅಪಘಾತದ ಸಂದರ್ಭದಲ್ಲಿ, ಯಾವುದೇ ಜ್ಞಾನದ ನೆಲೆಯ ಲಭ್ಯತೆಯು ನಿರ್ಣಾಯಕವಾಗಿರುತ್ತದೆ.
15:50. ಮೇಲ್ವಿಚಾರಣಾ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಒಂದು ಸ್ವಿಚ್ ಆಫ್ ಆಗಿದೆ.
ಅವುಗಳಲ್ಲಿ ಹಲವಾರು ಇವೆ, ಮತ್ತು ಅವರು ಸೇವೆಗಳ ವಿವಿಧ ಅಂಶಗಳಿಗೆ ಜವಾಬ್ದಾರರಾಗಿರುತ್ತಾರೆ. ಅವುಗಳಲ್ಲಿ ಕೆಲವು ಪ್ರತಿ ಡೇಟಾ ಕೇಂದ್ರದೊಳಗೆ ಸ್ವಾಯತ್ತವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಕಾನ್ಫಿಗರ್ ಮಾಡಲ್ಪಟ್ಟಿವೆ (ಅಂದರೆ, ಅವರು ತಮ್ಮ ಸ್ವಂತ ಡೇಟಾ ಕೇಂದ್ರವನ್ನು ಮಾತ್ರ ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತಾರೆ), ಇತರರು ಯಾವುದೇ ಡೇಟಾ ಕೇಂದ್ರದ ನಷ್ಟವನ್ನು ಪಾರದರ್ಶಕವಾಗಿ ಬದುಕುವ ವಿತರಣಾ ಘಟಕಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತಾರೆ.
ಈ ಸಂದರ್ಭದಲ್ಲಿ ಅದು ಕೆಲಸ ಮಾಡುವುದನ್ನು ನಿಲ್ಲಿಸಿತು ವ್ಯಾಪಾರ ತರ್ಕ ಸೂಚಕಗಳು ಅಸಂಗತತೆ ಪತ್ತೆ ವ್ಯವಸ್ಥೆ, ಇದು ಮಾಸ್ಟರ್-ಸ್ಟ್ಯಾಂಡ್‌ಬೈ ಮೋಡ್‌ನಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಸ್ಟ್ಯಾಂಡ್‌ಬೈಗೆ ಬದಲಾಯಿಸಲಾಗಿದೆ.

ಅಂಗೀಕಾರ

15:51. MS SQL ಹೊರತುಪಡಿಸಿ ಎಲ್ಲಾ ಸರ್ವರ್‌ಗಳನ್ನು ಸರಿಯಾಗಿ ಸ್ಥಗಿತಗೊಳಿಸದೆ IPMI ಮೂಲಕ ಆಫ್ ಮಾಡಲಾಗಿದೆ.
ಅಗತ್ಯವಿದ್ದರೆ IPMI ಮೂಲಕ ಬೃಹತ್ ಸರ್ವರ್ ನಿರ್ವಹಣೆಗೆ ನೀವು ಸಿದ್ಧರಿದ್ದೀರಾ?

ಈ ಹಂತದಲ್ಲಿ ಡೇಟಾ ಸೆಂಟರ್‌ನಲ್ಲಿನ ಉಪಕರಣಗಳ ರಕ್ಷಣೆ ಪೂರ್ಣಗೊಂಡ ಕ್ಷಣ. ಮಾಡಬಹುದಾದ ಎಲ್ಲವನ್ನೂ ಮಾಡಲಾಗಿದೆ. ಕೆಲವು ಸಹೋದ್ಯೋಗಿಗಳು ವಿಶ್ರಾಂತಿ ಪಡೆಯಬಹುದು.
16: 13. ಏರ್ ಕಂಡಿಷನರ್‌ಗಳಿಂದ ಫ್ರಿಯಾನ್ ಪೈಪ್‌ಗಳು ಛಾವಣಿಯ ಮೇಲೆ ಸಿಡಿಯುತ್ತವೆ ಎಂಬ ಮಾಹಿತಿಯನ್ನು ಸ್ವೀಕರಿಸಲಾಗಿದೆ - ಇದು ಬೆಂಕಿಯನ್ನು ತೆಗೆದುಹಾಕಿದ ನಂತರ ಡೇಟಾ ಕೇಂದ್ರದ ಉಡಾವಣೆಯನ್ನು ವಿಳಂಬಗೊಳಿಸುತ್ತದೆ.
16:19. ಡೇಟಾ ಸೆಂಟರ್ನ ತಾಂತ್ರಿಕ ಸಿಬ್ಬಂದಿಯಿಂದ ಪಡೆದ ಮಾಹಿತಿಯ ಪ್ರಕಾರ, ಸಭಾಂಗಣಗಳಲ್ಲಿ ಉಷ್ಣತೆಯ ಹೆಚ್ಚಳವು ನಿಲ್ಲಿಸಿದೆ.
17:10. conf ಡೇಟಾಬೇಸ್ ಅನ್ನು ಮರುಸ್ಥಾಪಿಸಲಾಗಿದೆ. ಈಗ ನಾವು ಅಪ್ಲಿಕೇಶನ್ ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ಬದಲಾಯಿಸಬಹುದು.
ಎಲ್ಲವೂ ದೋಷ-ಸಹಿಷ್ಣುವಾಗಿದ್ದರೆ ಮತ್ತು ಒಂದು ಡೇಟಾ ಸೆಂಟರ್ ಇಲ್ಲದೆಯೂ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿದ್ದರೆ ಇದು ಏಕೆ ಮುಖ್ಯ?
ಮೊದಲನೆಯದಾಗಿ, ಎಲ್ಲವೂ ದೋಷ-ಸಹಿಷ್ಣುವಲ್ಲ. ದತ್ತಾಂಶ ಕೇಂದ್ರದ ವೈಫಲ್ಯದಿಂದ ಇನ್ನೂ ಸಾಕಷ್ಟು ಉಳಿದುಕೊಂಡಿಲ್ಲದ ವಿವಿಧ ದ್ವಿತೀಯಕ ಸೇವೆಗಳಿವೆ ಮತ್ತು ಮಾಸ್ಟರ್-ಸ್ಟ್ಯಾಂಡ್‌ಬೈ ಮೋಡ್‌ನಲ್ಲಿ ಡೇಟಾಬೇಸ್‌ಗಳಿವೆ. ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯವು ಕಷ್ಟಕರ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿಯೂ ಸಹ ಬಳಕೆದಾರರ ಮೇಲೆ ಅಪಘಾತದ ಪರಿಣಾಮಗಳ ಪರಿಣಾಮವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಅಗತ್ಯವಿರುವ ಎಲ್ಲವನ್ನೂ ಮಾಡಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.
ಎರಡನೆಯದಾಗಿ, ಮುಂಬರುವ ಗಂಟೆಗಳಲ್ಲಿ ಡೇಟಾ ಕೇಂದ್ರದ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪುನಃಸ್ಥಾಪಿಸಲಾಗುವುದಿಲ್ಲ ಎಂದು ಸ್ಪಷ್ಟವಾಯಿತು, ಆದ್ದರಿಂದ ಪ್ರತಿಕೃತಿಗಳ ದೀರ್ಘಾವಧಿಯ ಅಲಭ್ಯತೆಯು ಪೂರ್ಣ ಡಿಸ್ಕ್ಗಳಂತಹ ಹೆಚ್ಚುವರಿ ತೊಂದರೆಗಳಿಗೆ ಕಾರಣವಾಗದಂತೆ ಕ್ರಮಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವುದು ಅವಶ್ಯಕವಾಗಿದೆ. ಉಳಿದ ಡೇಟಾ ಕೇಂದ್ರಗಳು.
17:29. ಪಿಜ್ಜಾ ಸಮಯ! ನಾವು ಜನರನ್ನು ನೇಮಿಸಿಕೊಳ್ಳುತ್ತೇವೆ, ರೋಬೋಟ್‌ಗಳಲ್ಲ.

ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹೊಗೆ ಪರೀಕ್ಷೆಗೆ ಬೆಂಕಿ ಬಿದ್ದರೆ ಸರ್ವರ್‌ಗಳು ನಂದಿಸಬೇಕೆ?

ಪುನರ್ವಸತಿ

18:02. ಸಭಾಂಗಣ ಸಂಖ್ಯೆ 8 (ನಮ್ಮದು), 9, 10 ಮತ್ತು 11 ರಲ್ಲಿ ತಾಪಮಾನವು ಸ್ಥಿರವಾಗಿದೆ. ಆಫ್‌ಲೈನ್‌ನಲ್ಲಿ ಉಳಿದಿರುವ ಒಂದು (ಸಂಖ್ಯೆ 7) ನಮ್ಮ ಉಪಕರಣಗಳನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಅಲ್ಲಿ ತಾಪಮಾನವು ಏರುತ್ತಲೇ ಇದೆ.
18:31. ಸಭಾಂಗಣ ಸಂಖ್ಯೆ 1 ಮತ್ತು 3 ರಲ್ಲಿ ಉಪಕರಣಗಳನ್ನು ಪ್ರಾರಂಭಿಸಲು ಅವರು ಚಾಲನೆ ನೀಡಿದರು - ಈ ಸಭಾಂಗಣಗಳು ಬೆಂಕಿಯಿಂದ ಪ್ರಭಾವಿತವಾಗಿಲ್ಲ.

ಪ್ರಸ್ತುತ, ಹಾಲ್ ಸಂಖ್ಯೆ 1, 3, 8 ರಲ್ಲಿ ಸರ್ವರ್‌ಗಳನ್ನು ಪ್ರಾರಂಭಿಸಲಾಗುತ್ತಿದೆ, ಇದು ಅತ್ಯಂತ ನಿರ್ಣಾಯಕವಾದವುಗಳಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಚಾಲನೆಯಲ್ಲಿರುವ ಎಲ್ಲಾ ಸೇವೆಗಳ ಸರಿಯಾದ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಪರಿಶೀಲಿಸಲಾಗಿದೆ. ಸಭಾಂಗಣ ಸಂಖ್ಯೆ 7ರಲ್ಲಿ ಇನ್ನೂ ಸಮಸ್ಯೆಗಳಿವೆ.

18:44. ಡೇಟಾ ಸೆಂಟರ್‌ನ ತಾಂತ್ರಿಕ ಸಿಬ್ಬಂದಿ ಕೊಠಡಿ ಸಂಖ್ಯೆ 7 ರಲ್ಲಿ (ನಮ್ಮ ಉಪಕರಣಗಳು ಮಾತ್ರ ಇರುವಲ್ಲಿ) ಅನೇಕ ಸರ್ವರ್‌ಗಳನ್ನು ಆಫ್ ಮಾಡಲಾಗಿಲ್ಲ ಎಂದು ಕಂಡುಹಿಡಿದರು. ನಮ್ಮ ಡೇಟಾ ಪ್ರಕಾರ, 26 ಸರ್ವರ್‌ಗಳು ಆನ್‌ಲೈನ್‌ನಲ್ಲಿ ಉಳಿದಿವೆ. ಎರಡನೇ ಪರಿಶೀಲನೆಯ ನಂತರ, ನಾವು 58 ಸರ್ವರ್‌ಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತೇವೆ.
20:18. ಡೇಟಾ ಸೆಂಟರ್ ತಂತ್ರಜ್ಞರು ಹಜಾರದ ಮೂಲಕ ಚಲಿಸುವ ಮೊಬೈಲ್ ನಾಳಗಳ ಮೂಲಕ ಹವಾನಿಯಂತ್ರಿತ ಕೋಣೆಯ ಮೂಲಕ ಗಾಳಿಯನ್ನು ಬೀಸುತ್ತಾರೆ.
23:08. ಮೊದಲ ನಿರ್ವಾಹಕರನ್ನು ಮನೆಗೆ ಕಳುಹಿಸಲಾಗಿದೆ. ನಾಳೆ ಕೆಲಸವನ್ನು ಮುಂದುವರಿಸಲು ಯಾರಾದರೂ ರಾತ್ರಿಯಲ್ಲಿ ಮಲಗಬೇಕು. ಮುಂದೆ, ನಾವು ಇನ್ನೂ ಕೆಲವು ನಿರ್ವಾಹಕರು ಮತ್ತು ಡೆವಲಪರ್‌ಗಳನ್ನು ಬಿಡುಗಡೆ ಮಾಡುತ್ತೇವೆ.
02:56. ನಾವು ಪ್ರಾರಂಭಿಸಬಹುದಾದ ಎಲ್ಲವನ್ನೂ ನಾವು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಸ್ವಯಂಚಾಲಿತ ಪರೀಕ್ಷೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಎಲ್ಲಾ ಸೇವೆಗಳನ್ನು ಸಾಕಷ್ಟು ಪರಿಶೀಲಿಸುತ್ತೇವೆ.

ದತ್ತಾಂಶ ಕೇಂದ್ರದ ಹೊಗೆ ಪರೀಕ್ಷೆಗೆ ಬೆಂಕಿ ಬಿದ್ದರೆ ಸರ್ವರ್‌ಗಳು ನಂದಿಸಬೇಕೆ?

03:02. ಕಳೆದ, 7ನೇ ಸಭಾಂಗಣದಲ್ಲಿ ಹವಾನಿಯಂತ್ರಣವನ್ನು ಮರುಸ್ಥಾಪಿಸಲಾಗಿದೆ.
03:36. ನಾವು ಡೇಟಾ ಕೇಂದ್ರದಲ್ಲಿ ಮುಂಭಾಗಗಳನ್ನು DNS ನಲ್ಲಿ ತಿರುಗುವಂತೆ ತಂದಿದ್ದೇವೆ. ಈ ಕ್ಷಣದಿಂದ ಬಳಕೆದಾರರ ದಟ್ಟಣೆಯು ಬರಲು ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.
ನಾವು ಹೆಚ್ಚಿನ ಆಡಳಿತ ತಂಡವನ್ನು ಮನೆಗೆ ಕಳುಹಿಸುತ್ತಿದ್ದೇವೆ. ಆದರೆ ನಾವು ಕೆಲವು ಜನರನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತೇವೆ.

ಸಣ್ಣ FAQ:
ಪ್ರಶ್ನೆ: 18:31 ರಿಂದ 02:56 ರವರೆಗೆ ಏನಾಯಿತು?
ಉ: "ವಿಪತ್ತು ಕ್ರಿಯಾ ಯೋಜನೆ" ಅನುಸರಿಸಿ, ನಾವು ಎಲ್ಲಾ ಸೇವೆಗಳನ್ನು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ, ಪ್ರಮುಖವಾದವುಗಳಿಂದ ಪ್ರಾರಂಭಿಸಿ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಚಾಟ್‌ನಲ್ಲಿನ ಸಂಯೋಜಕರು ಉಚಿತ ನಿರ್ವಾಹಕರಿಗೆ ಸೇವೆಯನ್ನು ನೀಡುತ್ತಾರೆ, ಅವರು ಓಎಸ್ ಮತ್ತು ಅಪ್ಲಿಕೇಶನ್ ಪ್ರಾರಂಭವಾಗಿದೆಯೇ, ಯಾವುದೇ ದೋಷಗಳಿವೆಯೇ ಮತ್ತು ಸೂಚಕಗಳು ಸಾಮಾನ್ಯವಾಗಿದೆಯೇ ಎಂದು ಪರಿಶೀಲಿಸುತ್ತಾರೆ. ಉಡಾವಣೆ ಪೂರ್ಣಗೊಂಡ ನಂತರ, ಅವರು ಉಚಿತ ಎಂದು ಚಾಟ್‌ಗೆ ವರದಿ ಮಾಡುತ್ತಾರೆ ಮತ್ತು ಸಂಯೋಜಕರಿಂದ ಹೊಸ ಸೇವೆಯನ್ನು ಸ್ವೀಕರಿಸುತ್ತಾರೆ.
ವಿಫಲವಾದ ಯಂತ್ರಾಂಶದಿಂದ ಪ್ರಕ್ರಿಯೆಯು ಮತ್ತಷ್ಟು ನಿಧಾನಗೊಳ್ಳುತ್ತದೆ. ಓಎಸ್ ಅನ್ನು ನಿಲ್ಲಿಸುವುದು ಮತ್ತು ಸರ್ವರ್‌ಗಳನ್ನು ಸ್ಥಗಿತಗೊಳಿಸುವುದು ಸರಿಯಾಗಿ ನಡೆದಿದ್ದರೂ, ಡಿಸ್ಕ್, ಮೆಮೊರಿ ಮತ್ತು ಚಾಸಿಸ್‌ಗಳ ಹಠಾತ್ ವೈಫಲ್ಯದಿಂದಾಗಿ ಕೆಲವು ಸರ್ವರ್‌ಗಳು ಹಿಂತಿರುಗುವುದಿಲ್ಲ. ವಿದ್ಯುತ್ ಕಳೆದುಹೋದಾಗ, ವೈಫಲ್ಯದ ಪ್ರಮಾಣವು ಹೆಚ್ಚಾಗುತ್ತದೆ.
ಪ್ರಶ್ನೆ: ನೀವು ಎಲ್ಲವನ್ನೂ ಏಕಕಾಲದಲ್ಲಿ ಏಕೆ ಚಲಾಯಿಸಬಾರದು ಮತ್ತು ನಂತರ ಮೇಲ್ವಿಚಾರಣೆಯಲ್ಲಿ ಏನನ್ನು ಸರಿಪಡಿಸಬಹುದು?
ಉ: ಎಲ್ಲವನ್ನೂ ಕ್ರಮೇಣವಾಗಿ ಮಾಡಬೇಕು, ಏಕೆಂದರೆ ಸೇವೆಗಳ ನಡುವೆ ಅವಲಂಬನೆಗಳಿವೆ. ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆಗಾಗಿ ಕಾಯದೆ ಎಲ್ಲವನ್ನೂ ಈಗಿನಿಂದಲೇ ಪರಿಶೀಲಿಸಬೇಕು - ಏಕೆಂದರೆ ಸಮಸ್ಯೆಗಳು ಉಲ್ಬಣಗೊಳ್ಳುವವರೆಗೆ ಕಾಯದೆ ಈಗಿನಿಂದಲೇ ಅವುಗಳನ್ನು ನಿಭಾಯಿಸುವುದು ಉತ್ತಮ.

7:40. ಕೊನೆಯ ನಿರ್ವಾಹಕರು (ಸಂಯೋಜಕರು) ಮಲಗಲು ಹೋದರು. ಮೊದಲ ದಿನದ ಕೆಲಸ ಮುಗಿದಿದೆ.
8:09. ಮೊದಲ ಡೆವಲಪರ್‌ಗಳು, ಡೇಟಾ ಸೆಂಟರ್ ಎಂಜಿನಿಯರ್‌ಗಳು ಮತ್ತು ನಿರ್ವಾಹಕರು (ಹೊಸ ಸಂಯೋಜಕರನ್ನು ಒಳಗೊಂಡಂತೆ) ಪುನಃಸ್ಥಾಪನೆ ಕಾರ್ಯವನ್ನು ಪ್ರಾರಂಭಿಸಿದರು.
09:37. ನಾವು ಹಾಲ್ ಸಂಖ್ಯೆ 7 (ಕೊನೆಯದು) ಅನ್ನು ಹೆಚ್ಚಿಸಲು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ.
ಅದೇ ಸಮಯದಲ್ಲಿ, ನಾವು ಇತರ ಕೊಠಡಿಗಳಲ್ಲಿ ಸರಿಪಡಿಸದಿದ್ದನ್ನು ಪುನಃಸ್ಥಾಪಿಸಲು ಮುಂದುವರಿಯುತ್ತೇವೆ: ಡಿಸ್ಕ್ಗಳು ​​/ ಮೆಮೊರಿ / ಸರ್ವರ್ಗಳನ್ನು ಬದಲಿಸುವುದು, ಮೇಲ್ವಿಚಾರಣೆಯಲ್ಲಿ "ಸುಡುವ" ಎಲ್ಲವನ್ನೂ ಸರಿಪಡಿಸುವುದು, ಮಾಸ್ಟರ್-ಸ್ಟ್ಯಾಂಡ್ಬೈ ಸ್ಕೀಮ್ಗಳಲ್ಲಿ ಪಾತ್ರಗಳನ್ನು ಬದಲಾಯಿಸುವುದು ಮತ್ತು ಇತರ ಸಣ್ಣ ವಿಷಯಗಳು. ಆದಾಗ್ಯೂ ಸಾಕಷ್ಟು.
17:08. ಉತ್ಪಾದನೆಯೊಂದಿಗೆ ಎಲ್ಲಾ ನಿಯಮಿತ ಕೆಲಸವನ್ನು ನಾವು ಅನುಮತಿಸುತ್ತೇವೆ.
21:45. ಎರಡನೇ ದಿನದ ಕೆಲಸ ಮುಗಿದಿದೆ.
09:45. ಇಂದು ಶುಕ್ರವಾರ. ಮೇಲ್ವಿಚಾರಣೆಯಲ್ಲಿ ಇನ್ನೂ ಕೆಲವು ಸಣ್ಣ ಸಮಸ್ಯೆಗಳಿವೆ. ವಾರಾಂತ್ಯವು ಮುಂದಿದೆ, ಪ್ರತಿಯೊಬ್ಬರೂ ವಿಶ್ರಾಂತಿ ಪಡೆಯಲು ಬಯಸುತ್ತಾರೆ. ನಾವು ಮಾಡಬಹುದಾದ ಎಲ್ಲವನ್ನೂ ನಾವು ಬೃಹತ್ ಪ್ರಮಾಣದಲ್ಲಿ ದುರಸ್ತಿ ಮಾಡುವುದನ್ನು ಮುಂದುವರಿಸುತ್ತೇವೆ. ಮುಂದೂಡಬಹುದಾದ ನಿಯಮಿತ ನಿರ್ವಾಹಕ ಕಾರ್ಯಗಳನ್ನು ಮುಂದೂಡಲಾಗಿದೆ. ಸಂಯೋಜಕರು ಹೊಸಬರು.
15:40. ಮತ್ತೊಂದು ಡೇಟಾ ಕೇಂದ್ರದಲ್ಲಿ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಅರ್ಧದಷ್ಟು ಕೋರ್ ನೆಟ್‌ವರ್ಕ್ ಉಪಕರಣಗಳ ಸ್ಟ್ಯಾಕ್ ಮರುಪ್ರಾರಂಭಗೊಂಡಿದೆ. ಅಪಾಯಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಮುಂಭಾಗಗಳನ್ನು ತಿರುಗುವಿಕೆಯಿಂದ ಹೊರತೆಗೆಯಲಾಗಿದೆ. ಬಳಕೆದಾರರಿಗೆ ಯಾವುದೇ ಪರಿಣಾಮವಿಲ್ಲ. ನಂತರ ಅದು ದೋಷಪೂರಿತ ಚಾಸಿಸ್ ಎಂದು ತಿಳಿದುಬಂದಿದೆ. ಸಂಯೋಜಕರು ಏಕಕಾಲದಲ್ಲಿ ಎರಡು ಅಪಘಾತಗಳನ್ನು ಸರಿಪಡಿಸುವ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದಾರೆ.
17:17. ಮತ್ತೊಂದು ಡೇಟಾ ಕೇಂದ್ರದಲ್ಲಿ ನೆಟ್‌ವರ್ಕ್ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಪುನಃಸ್ಥಾಪಿಸಲಾಗಿದೆ, ಎಲ್ಲವನ್ನೂ ಪರಿಶೀಲಿಸಲಾಗಿದೆ. ಡೇಟಾ ಸೆಂಟರ್ ಅನ್ನು ಸರದಿಯಲ್ಲಿ ಇರಿಸಲಾಗಿದೆ.
18:29. ಮೂರನೇ ದಿನದ ಕೆಲಸ ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ, ಅಪಘಾತದ ನಂತರ ಪುನಃಸ್ಥಾಪನೆ ಪೂರ್ಣಗೊಂಡಿದೆ.

ನಂತರದ

04.04.2013 404 ದೋಷದ ದಿನದಂದು, "ಸಹಪಾಠಿಗಳು" ದೊಡ್ಡ ಅಪಘಾತದಿಂದ ಪಾರಾಗಿದ್ದಾರೆ ಮೂರು ದಿನಗಳವರೆಗೆ ಪೋರ್ಟಲ್ ಸಂಪೂರ್ಣವಾಗಿ ಅಥವಾ ಭಾಗಶಃ ಲಭ್ಯವಿಲ್ಲ. ಈ ಸಂಪೂರ್ಣ ಸಮಯದಲ್ಲಿ, ವಿವಿಧ ನಗರಗಳಿಂದ, ವಿವಿಧ ಕಂಪನಿಗಳಿಂದ 100 ಕ್ಕೂ ಹೆಚ್ಚು ಜನರು (ಮತ್ತೆ ಅನೇಕ ಧನ್ಯವಾದಗಳು!), ದೂರದಿಂದಲೇ ಮತ್ತು ನೇರವಾಗಿ ಡೇಟಾ ಕೇಂದ್ರಗಳಲ್ಲಿ, ಹಸ್ತಚಾಲಿತವಾಗಿ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತವಾಗಿ, ಸಾವಿರಾರು ಸರ್ವರ್‌ಗಳನ್ನು ದುರಸ್ತಿ ಮಾಡಿದ್ದಾರೆ.
ನಾವು ತೀರ್ಮಾನಗಳನ್ನು ತೆಗೆದುಕೊಂಡಿದ್ದೇವೆ. ಇನ್ನು ಮುಂದೆ ಹೀಗಾಗದಂತೆ ತಡೆಯಲು ನಾವು ಇಂದಿಗೂ ವ್ಯಾಪಕವಾದ ಕೆಲಸಗಳನ್ನು ಮಾಡಿದ್ದೇವೆ ಮತ್ತು ನಡೆಸುತ್ತಿದ್ದೇವೆ.

ಪ್ರಸ್ತುತ ಅಪಘಾತ ಮತ್ತು 404 ನಡುವಿನ ಪ್ರಮುಖ ವ್ಯತ್ಯಾಸಗಳು ಯಾವುವು?

  • ನಾವು "ಅಪಘಾತ ಕ್ರಿಯಾ ಯೋಜನೆ" ಹೊಂದಿದ್ದೇವೆ. ತ್ರೈಮಾಸಿಕಕ್ಕೆ ಒಮ್ಮೆ, ನಾವು ವ್ಯಾಯಾಮಗಳನ್ನು ನಡೆಸುತ್ತೇವೆ - ನಾವು ತುರ್ತು ಪರಿಸ್ಥಿತಿಯಲ್ಲಿ ಪಾತ್ರವಹಿಸುತ್ತೇವೆ, ಇದನ್ನು ನಿರ್ವಾಹಕರ ಗುಂಪು (ಎಲ್ಲವೂ ಪ್ರತಿಯಾಗಿ) “ತುರ್ತು ಕ್ರಿಯಾ ಯೋಜನೆ” ಬಳಸಿ ತೆಗೆದುಹಾಕಬೇಕು. ಪ್ರಮುಖ ಸಿಸ್ಟಮ್ ನಿರ್ವಾಹಕರು ಸಂಯೋಜಕರ ಪಾತ್ರವನ್ನು ವಹಿಸುತ್ತಾರೆ.
  • ತ್ರೈಮಾಸಿಕವಾಗಿ, ಪರೀಕ್ಷಾ ಕ್ರಮದಲ್ಲಿ, ನಾವು LAN ಮತ್ತು WAN ನೆಟ್‌ವರ್ಕ್‌ಗಳ ಮೂಲಕ ಡೇಟಾ ಕೇಂದ್ರಗಳನ್ನು (ಎಲ್ಲವೂ ಪ್ರತಿಯಾಗಿ) ಪ್ರತ್ಯೇಕಿಸುತ್ತೇವೆ, ಇದು ನಮಗೆ ಅಡಚಣೆಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಗುರುತಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
  • ಕಡಿಮೆ ಹಾನಿಗೊಳಗಾದ ಡಿಸ್ಕ್ಗಳು, ಏಕೆಂದರೆ ನಾವು ಮಾನದಂಡಗಳನ್ನು ಬಿಗಿಗೊಳಿಸಿದ್ದೇವೆ: ಕಡಿಮೆ ಕಾರ್ಯಾಚರಣೆಯ ಗಂಟೆಗಳು, SMART ಗಾಗಿ ಕಠಿಣ ಮಿತಿಗಳು,
  • ಸರ್ವರ್ ಮರುಪ್ರಾರಂಭದ ನಂತರ ಚೇತರಿಸಿಕೊಳ್ಳಲು ಸಾಕಷ್ಟು ಸಮಯ ಬೇಕಾಗುವ ಹಳೆಯ ಮತ್ತು ಅಸ್ಥಿರ ಡೇಟಾಬೇಸ್ ಆಗಿರುವ ಬರ್ಕ್ಲಿಡಿಬಿಯನ್ನು ನಾವು ಸಂಪೂರ್ಣವಾಗಿ ತ್ಯಜಿಸಿದ್ದೇವೆ.
  • ನಾವು MS SQL ನೊಂದಿಗೆ ಸರ್ವರ್‌ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆಗೊಳಿಸಿದ್ದೇವೆ ಮತ್ತು ಉಳಿದವುಗಳ ಮೇಲಿನ ಅವಲಂಬನೆಯನ್ನು ಕಡಿಮೆಗೊಳಿಸಿದ್ದೇವೆ.
  • ನಮಗೆ ನಮ್ಮದೇ ಇದೆ ಮೋಡ - ಒಂದು ಮೋಡ, ನಾವು ಈಗ ಎರಡು ವರ್ಷಗಳಿಂದ ಎಲ್ಲಾ ಸೇವೆಗಳನ್ನು ಸಕ್ರಿಯವಾಗಿ ಸ್ಥಳಾಂತರಿಸುತ್ತಿದ್ದೇವೆ. ಕ್ಲೌಡ್ ಅಪ್ಲಿಕೇಶನ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸಂಪೂರ್ಣ ಚಕ್ರವನ್ನು ಹೆಚ್ಚು ಸರಳಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಅಪಘಾತದ ಸಂದರ್ಭದಲ್ಲಿ ಅದು ಅಂತಹ ವಿಶಿಷ್ಟ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ:
    • ಒಂದೇ ಕ್ಲಿಕ್‌ನಲ್ಲಿ ಎಲ್ಲಾ ಅಪ್ಲಿಕೇಶನ್‌ಗಳ ಸರಿಯಾದ ನಿಲುಗಡೆ;
    • ವಿಫಲವಾದ ಸರ್ವರ್‌ಗಳಿಂದ ಅಪ್ಲಿಕೇಶನ್‌ಗಳ ಸುಲಭ ವಲಸೆ;
    • ಸ್ವಯಂಚಾಲಿತ ಶ್ರೇಯಾಂಕದ (ಸೇವೆಗಳ ಆದ್ಯತೆಯ ಕ್ರಮದಲ್ಲಿ) ಸಂಪೂರ್ಣ ಡೇಟಾ ಕೇಂದ್ರದ ಉಡಾವಣೆ.

ಈ ಲೇಖನದಲ್ಲಿ ವಿವರಿಸಿದ ಅಪಘಾತವು 404 ನೇ ದಿನದ ನಂತರ ಅತಿ ದೊಡ್ಡದಾಗಿದೆ. ಸಹಜವಾಗಿ, ಎಲ್ಲವೂ ಸುಗಮವಾಗಿ ನಡೆಯಲಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಮತ್ತೊಂದು ಡೇಟಾ ಸೆಂಟರ್‌ನಲ್ಲಿ ಬೆಂಕಿಯಿಂದ ಹಾನಿಗೊಳಗಾದ ಡೇಟಾ ಸೆಂಟರ್‌ನ ಅಲಭ್ಯತೆಯ ಸಮಯದಲ್ಲಿ, ಸರ್ವರ್‌ಗಳಲ್ಲಿ ಒಂದು ಡಿಸ್ಕ್ ವಿಫಲವಾಗಿದೆ, ಅಂದರೆ, ಕ್ಯಾಸಂಡ್ರಾ ಕ್ಲಸ್ಟರ್‌ನಲ್ಲಿರುವ ಮೂರು ಪ್ರತಿಕೃತಿಗಳಲ್ಲಿ ಒಂದನ್ನು ಮಾತ್ರ ಪ್ರವೇಶಿಸಬಹುದು, ಅದಕ್ಕಾಗಿಯೇ 4,2% ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಬಳಕೆದಾರರಿಗೆ ಲಾಗ್ ಇನ್ ಮಾಡಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಈಗಾಗಲೇ ಸಂಪರ್ಕಿತ ಬಳಕೆದಾರರು ಕೆಲಸ ಮುಂದುವರೆಸಿದರು. ಒಟ್ಟಾರೆಯಾಗಿ, ಅಪಘಾತದ ಪರಿಣಾಮವಾಗಿ, 30 ಕ್ಕೂ ಹೆಚ್ಚು ಸಮಸ್ಯೆಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ - ನೀರಸ ದೋಷಗಳಿಂದ ಸೇವಾ ವಾಸ್ತುಶಿಲ್ಪದಲ್ಲಿನ ನ್ಯೂನತೆಗಳವರೆಗೆ.

ಆದರೆ ಪ್ರಸ್ತುತ ಅಪಘಾತ ಮತ್ತು 404 ನೇ ನಡುವಿನ ಪ್ರಮುಖ ವ್ಯತ್ಯಾಸವೆಂದರೆ ನಾವು ಬೆಂಕಿಯ ಪರಿಣಾಮಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತಿರುವಾಗ, ಬಳಕೆದಾರರು ಇನ್ನೂ ಸಂದೇಶ ಕಳುಹಿಸುತ್ತಿದ್ದರು ಮತ್ತು ವೀಡಿಯೊ ಕರೆಗಳನ್ನು ಮಾಡುತ್ತಿದ್ದರು. ನಿಖರವಾಗಿ, ಆಟಗಳನ್ನು ಆಡಿದರು, ಸಂಗೀತವನ್ನು ಆಲಿಸಿದರು, ಪರಸ್ಪರ ಉಡುಗೊರೆಗಳನ್ನು ನೀಡಿದರು, ವೀಡಿಯೊಗಳನ್ನು ವೀಕ್ಷಿಸಿದರು, ಟಿವಿ ಸರಣಿಗಳು ಮತ್ತು ಟಿವಿ ಚಾನೆಲ್‌ಗಳನ್ನು ವೀಕ್ಷಿಸಿದರು ಸರಿ, ಮತ್ತು ಸಹ ಸ್ಟ್ರೀಮ್ ಮಾಡಲಾಗಿದೆ ಸರಿ ಲೈವ್.

ನಿಮ್ಮ ಅಪಘಾತಗಳು ಹೇಗೆ ಹೋಗುತ್ತವೆ?

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ