值班地窖的故事

初步通知:这篇文章纯粹是周五的,娱乐性多于技术性。 您会发现有关工程黑客的有趣故事、移动运营商工作阴暗面的故事以及其他无聊的故事。 如果我在某个地方进行修饰,那只是为了该类型的利益,如果我撒谎,那么所有这些都是很久以前的事情了,不会伤害任何人。 但如果你发现技术错误或其他错误,请毫不留情地纠正我,我一直站在正义一边。

注意,我开始不超频!

后门通往院子

我们一楼的值班室有大窗户,从底部一直到天花板。 他们走到服务停车场,早上各种测量员和其他现场员工都从那里离开。 停车场距离前面和所有服务入口有足够的距离,并位于两个障碍物后面。

一天早上,当时,警车开到了大楼,警察站在所有入口处对所有离开的人进行搜查。 官方邮件列表中出现了一条警报:突然(真的突然,不是像平常那样)进行了软件许可检查,并且将检查工作站。 电脑上有盗版的,立即拆除!

当然,与操作系统、办公和实用软件相关的所有内容大多都是经过许可的。 但不是一切,不是总是,也不是无处不在; 至于员工在公司笔记本电脑上安装了什么,那是一个完全黑暗的故事。 我赶紧检查我负责的盗版区域内的汽车,很快就拆掉了一些东西……

……而这个时候,工程师们开始迈着匆忙而紧张的步伐进入值班室,怀里抱着笔记本电脑和系统工程师。 他们从门进出,透过窗户咯咯地笑着这种荒唐的情况:所有的入口都被封锁了,但治安恶魔却没有想到有这样的后门。 因此,当会计部门接受审计时(一切都是模范的),员工们排除了所有错误的地方。

过去就在那里

如果您有兴趣并且还没有关闭该选项卡,这里有一些关于时间、空间和人物上正在发生的事情的阐述。 我是一个年轻漂亮、青涩、像栗色叶子的人,IT 专业毕业生,在 Samara Megafon(当时也是 MSS Povolzhye)的工程部门找到了一份工作。 对我来说,这是第一次真正接触大写的技术和更大的技术人员:作为这个地狱般的厨房里最年轻的小恶魔,我高兴地看着经验丰富的魔鬼工程师的工作,但没有成功地试图理解他们的想法。智慧。 直到这种智慧渗入我的大脑毛孔之前,我只能在一堆各种各样的监控中摸索,每当“红色”出现时我就担心。

值班地窖的故事

如果这里提到的任何一个角色突然认出了自己,那么向你问好!

如果有效,请不要触摸它(如果不起作用,请触摸它)

米沙·巴索夫(Misha Basov)就是上面提到的超级技术人员之一。 在 Mega 工作的这些年里,我听到了很多关于他的好消息和有趣的事情,他几乎站在了最初的位置,启动了一系列流程。 我没能与他进行适当的沟通:我们实际上是在人事部门见面的,当时我带来了文件,他把它们拿走了。

我们使用的监控系统之一是由 Misha 编写的。 我不太记得那里监控了什么,但我知道 Misha 写了一个临时解决方案,很快就变成了永久性解决方案。 这很好:真正的技术人员为了自己的需要而匆忙做的很多事情结果都很好。 这种监控也适合每个人,在没有任何支持或维护的情况下工作,尽管没有人知道如何进行。

米莎被解雇几年后,监控开始显示空白页面。
我立刻拉响了警报。 值班班长拉响了警报。 该部门负责人拉响了警报。

部门负责人拉响了警报。 服务负责人拉响了警报。 部门主管按响了铃铛。 整个伏尔加地区的IT主管听到铃声,立即召开会议。 在那里,他给部门主管打电话。 他对服务负责人咆哮。 他不明白问题的本质,给部门主管打电话。 这个人不明白发生了什么事,给部门负责人打电话,部门负责人又给值班经理打电话。 好吧,他把箭转向了我。

不知怎么的,我换了班去参加了这个会议。 说了很多话,把负责监控的人叫了进来(我们没有听到任何可以理解的东西),记得巴索夫写过关于监控的文章,监控很重要,但没有人理解或知道它是如何运作的...这一切都归结于这样一个事实:应该删除不起作用且难以理解的系统,而应该实施来自经过验证的供应商的经过验证的解决方案。
说了这么多之后,我请求某人提供一台笔记本电脑并通过 SSH 访问该服务器。 我很想看看传奇人物巴索夫写了什么样的超酷系统。

当我进去时,我习惯性做的第一件事就是输入:

df -h

该命令告诉我类似的信息:

Filesystem      Size  Used Avail Use% Mounted on
/var            10G   10G  0G    100% /

我清理多年来已满的/var/log,更新监控 - 一切正常。 修复!
会议停止,崩溃,大家散去。 一路上,部门领导欣喜若狂,还许诺给我奖金!...

...后来,我并没有得到奖金,而是因为意外地未能从值得信赖的供应商那里订购监控系统而受到精神打击。

房子住哪里?

值班工程师的职责之一是控制计算机房的电子访问密钥。 当时的大厅给我留下了非常深刻的印象:一排排的机架装满了服务器和交换设备,光纤和交叉电缆线(在一些地方完美地铺设,在另一些地方变成了令人难以置信的意大利面条团),持续不断的嗡嗡声空调和假地板,在下面可以方便地冷却饮料……大厅的入口被厚重的气密门密封,旨在确保发生火灾时自动封锁。 进出都有严格的记录和签名,以便知道谁在里面以及为什么在里面。

当然,这些房间里我最喜欢的是“超级房子”的服务器机柜——两台HP SuperDome 9000,提供计费功能。 两个相同的节点,一个永远是作战节点,第二个是同步热备。 它们之间的区别仅在于IP地址,一个是xxx45,另一个是xxx46。 所有工程师都知道这两个 IP 地址,因为如果计费系统发生问题,您要做的第一件事就是查看超级房屋是否可见。 超级房屋的隐形性令人惊叹。

一天早上,发生了这样的事情。 两秒钟之内,两台服务器上的所有服务都消失了,计费也化为乌有。 我们快速检查服务器 - 它们 ping 通,但实际上什么也没有!

在我们还没来得及开始采取必要的措施之前,我们就听到一声大声喊叫“杀了,学生!”;所有服务器的首席管理员跑进值班室,从架子上扯下涡轮室的电子钥匙并跑到那里。

此后很快,监控就恢复正常。

所发生的事情是这样的:合同组织的一名新员工正在配置一组新虚拟机,手动为它们分配了连续的静态 IP 地址,从 xxx1 到 xxx100。 “学生”不知道神圣不可触及的地址,老前辈们也没有想到有人会这样侵犯他们。

反垃圾邮件服务

哇,上夜班了! 我爱他们又恨他们,因为这是 50/50 的关系:要么在设备上进行预定的工作,你积极参与,帮助昏昏欲睡的大脑和颤抖的双手的工程师,要么保持沉默和平静。 用户正在睡觉,设备正在工作,没有任何损坏,值班人员很放松。

值班地窖的故事
任务正在按计划进行。

有一天,这种午夜的平静被办公室的一通电话打破了:您好,是俄罗斯联邦储蓄银行打来的,他们正在打扰您,您用于发送警报的 SIM 卡已停止工作。

这是很久以前的事了,甚至在 SMS 网关引入 IP 连接之前。 因此,为了让 Sber 能够从其著名的 900 号码发送短信,他们拿走了提供的 SIM 卡(很可能不止一张),将其插入 GSM 调制解调器,这就是它的工作原理。

好吧,我接受了这个问题并开始挖掘。 首先,我在账单中检查SIM卡的状态,它被阻止了。 到底是什么——旁边有一个红色铭文“请勿阻挡”和一个指向大恶魔将军命令的链接。 哇,这真的很有趣。

我检查了封锁的原因,眉毛上画了一个房子,然后前往下一个办公室,那里有一个来自反欺诈部门的女孩盯着监视器。

“莱诺奇卡,”我告诉她,“你为什么封锁俄罗斯联邦储蓄银行?”

她很困惑:他们说有人投诉说垃圾邮件来自 900。 嗯,我屏蔽了,他们早上就会解决。

你说——订阅者的投诉被忽略了!

当然,他们重新打开了 SIM 卡。

一个非常可怕的故事

当我第一次找到工作时,我和其他新手都接受了类似迎新之旅的安排。 他们展示了设备:服务器、空调、逆变器、灭火器。 他们展示了位于其中一间测试室中的基站进行实验,并解释说,虽然发射器以最小功率打开,但此时最好不要进入屏蔽门。 他们解释了移动网络的结构、主电源和备用电源、容错能力,以及网络设计为即使在原子弹爆炸后也能正常工作的事实。 我不知道这是为了说而说的还是真的,但这句话深深地印在了我的脑海里。

确实:无论当地发生了什么样的疯狂事情,伏尔加语音网络始终持续工作。 我不是通信专家,但我知道设备(基站和客户端终端)是为最大程度的“语音”生存能力而设计的。 BS 的电源断了吗? 它将减少功率,切换到柴油发电机组/电池,关闭数据包流量的传输,但语音将继续。 你剪断了电缆吗? 底座将切换到足以播放语音的无线电频道。 手机丢了BS? 他将增加功率并探测空气,直到他挂在塔上(或直到他耗尽电池)。 ETC。

但有一天,办公室里的灯光忽明忽暗,街上的柴油发电机轰鸣作响。 大家赶紧重新检查自己的硬件:IT部分没有发生任何严重的事情,但BS监控却出现了令人困惑的“awk”。 然后:“伙计们,我们所有的基地都瘫痪了,请检查连接。”
我们拿出手机——没有信号。

我们正在尝试 IP 电话 - 无法访问移动通信。

没有网络。 完全没有。 无处。

想起原子弹爆炸的那句话,我下意识地等待了几秒钟,直到冲击波到达我们身边——不知为什么,我想不出还有什么其他原因会导致网络丢失。 这既令人恐惧又令人好奇:我不知何故明白我没有时间做任何事情。 其余几人也是一脸的愕然,没有一个人能听懂。

没有冲击波。 经过五秒钟的震惊后,我们冲向专门针对这种情况的有线城市网络电话,开始给地区办事处打电话。 幸运的是,城市网络可以正常工作,但在他们确认的地区:整个萨马拉都“死机”了,硬件既不能执行 ping 操作,也不能拨号。

五分钟后,一名电力工程师带来了消息:一家发电厂某处发生火灾,至少切断了整个萨马拉乃至整个地区的电力供应。 呼气; 当切换到备用电源时,他们甚至吸了一口气。

另一个可怕(但有点愚蠢)的故事

我记忆中最大的错误发生在下一条直线与现在归零的直线上。 当时他们刚刚推出了短信发送问题的功能,所以他们提前做好了网络负载激增的准备:他们仔细检查并准备了一切,并且在X天之前整整一周他们禁止了任何工作除紧急情况外。 在任何预计负载会增加的情况下(例如节假日),都会使用类似的协议。 而对于值班的工程师来说,就跟休息一天一样,因为设备不碰的时候,是不可能出事的,而且就算出事了,所有的专家都提前坐在办公室里以防万一。

一般来说,我们坐着听国家领导人的话,什么都不用担心。

总机接线员发出一声轻柔的“F***”声。

我看看自己,真是“卧槽”:校园网掉线了。

一秒钟,一切都死了(当时还没有关于娜塔莎和猫的模因,但它会很有用)。 网络的用户部分消失了,技术部分也消失了。 随着恐惧的增加,我们试图检查仍然处于工作状态的东西,检查完毕后,我们伸手去柜子里拿一瓶隐藏的药用干邑白兰地:只剩下语音通话(我告诉过你,它们很顽强!),其他一切都死了。 没有互联网——既没有用户 GPRS,也没有光纤,光纤被分配给几个子提供商。 短信不发送。 屁股! 我们称这些地区为——他们有网络,但他们看不到萨马拉。

半小时之内,世界末日几乎触手可及。 一千万人突然一切都坏了,无法接通呼叫中心,因为呼叫中心的语音终端通过 VOIP 工作。

这是在最黑暗的统治者的讲话中! 国务院和奥巴马个人的又一次胜利!

值班技术人员从低起点开始工作,工作效率非常高:一个小时内网络就恢复正常了。

这样的袭击不是地区性的,甚至不是地区性的,应该向莫斯科报告所有细节并引渡肇事者。 因此,参与调查的人被禁止说出真相,否则将被解雇,并为民防部门撰写了一份充满水和迷雾的报告,从中不知何故发现“是它自己,没有人”都是罪魁祸首。”

实际发生的情况是:一位老板没有足够的时间来实施,并且失去了奖金。 他们与老板的老板决裂,等等; 因此,他们向一名新工程师施加压力,告诉他“趁一切安静的时候”进行所需的网络连接。 工程师不敢反对,甚至不敢要求书面命令:这是他的第一个错误。 其次,他在远程配置Cisco时犯了一个错误,在最短的时间内为fakap取得了创纪录的成绩。

据我所知,没有人受到惩罚。

假期来到我们身边

正如我已经提到的,假期对我们来说一直都是特殊的日子。 在这样的日子里,网络负载急剧增加,祝贺电话和短信数量激增。 我不知道现在怎么样了,随着互联网通讯的发展,但仅在元旦这一天,opsos就在贺电上取消了非常重大的惩罚。

因此,除夕夜,各部门的工程师始终在办公室值班(办公室外也有队伍准备推雪堆,消除小德里斯基村基站的事故)。 计费专家、硬件管理员、软件管道工、网络专家、交换机、服务技术人员、支持承包商 - 每个生物都有一个生物。 如果条件允许,他们会在我们的值班室闲逛,通过我们的监控设备观察伏尔加河地区各个时区的交通流量激增情况。

每晚三四次庆祝新年,但与其说是喜庆,不如说是紧张的期待:设备能否承受超载,复杂技术链条中的某个环节会不会断裂……

值班地窖的故事

负责计费的萨沙尤其紧张。 原则上,他总是看起来好像他的一生都在紧张中度过,因为他必须整理帐单中发生的所有好事,负责所有门框,他比其他人更频繁地被吵醒晚上; 总的来说,我不知道他如何或为何在他工作的地方工作。 也许他得到了很多钱,或者家人被扣为人质。 但那天晚上我总有一种感觉,如果你用指甲点击萨沙,那么他内心积聚的张力就会化为粉末。 对于这种不愉快的情况,我们有一把扫帚,但与此同时我们开始工作,舔着等待轮到我们的白兰地。

一小时又一小时,所有的负载激增都过去了,每个人都开始重新检查他们的系统。 交换机变得苍白:所有计费流量都在其中一台区域交换机上消失了。 这是有关通过交换机的所有呼叫的数据; 它们被写入一个文件,该文件通过 FTP(抱歉,但可靠)分块上传到 BRT 进行计费。

换向者想象着整个地区新年收入的部分损失将给他多少松节油灌肠剂,他开始颤抖。 他转向萨沙,用充满激动希望的声音对著名的计费官员先生说:“萨沙,请看,也许BRT设法降低了关税? 哦,请看一下!”

萨沙喝了一口干邑白兰地,吃了一块鱼子酱三明治,慢慢咀嚼着,因为没有大麻烟,高兴地翻了个白眼,回答道:“我已经查过了,没有档案……” ”。

(我出色的校对员问那个可怜的转接员发生了什么事。哦,他的命运很可怕:他被判在呼叫中心支持第一线工作一周,禁止说脏话。Brrr!)

扔一块石头谁是无罪的

根据这些故事,人们可能会觉得我个人和其他值班人员都没有责任。 没有那样的事情,他们很糟糕,但不知何故没有有趣的史诗和后果。 这份工作被认为适合昨天那些没有头脑和经验的学生,这样的员工没有什么可拿的,他们会把他踢出去——所以他不会更聪明并不是事实。 但归咎于他们在值班时的错误对工程师来说是一项单独的体育纪律:他们没有达到目标,没有弄清楚,没有及时通知他们,所以惩罚他们。 “值班官”完美地掌握了找借口的艺术;虽然并不总是有效,但每个人都明白一切。 因此,它飞了进来——但通常没有造成严重后果。

值班地窖的故事
我们正在解决换班时的另一个“失败”问题。

在那里工作的几年里,我记得三起有人被部门解雇的案例。
有一天,一位值夜班的工程师决定喝啤酒,然后技术总监就走进值班室走了进来。 有时他可以这样进来,简单地打个招呼(就像他从值班人员开始一样)。 我用一罐啤酒烧伤了一个人,按下电话,开火了。 晚上我们没有再喝啤酒。

还有一次,值班总机接线员错过了一场非常可怕的事故。 我已经不记得细节了。

第三次是在我在那里工作结束时。 工作条件急剧恶化,人员流动率很高,加班时间也很糟糕。 人们有时工作 12 小时,然后睡觉 XNUMX 小时,然后再次进行日常工作。 我自己就是这样工作的,只要我的健康状况允许,并且有报酬; 然后他们实际上停止支付加班费(通常他们承诺在可能的情况下提供休假补偿 - 但每个人都明白没有人会去散步),他们几乎在威胁下被迫停职。 一位工程师受不了这种杜鹃声,他在轮班期间从工作场所起身,永远回家了,途中他参观了服务主管的办公室,给他发了一封三封信。 我记得一封邮件中,这位工程师事后被贴上了法西斯和叛徒的标签,每一行都写着当局如何被这种行为烧死。

关于我个人的错误,有一件事情因其不同寻常而在我脑海中留下深刻的印象。 又是夜班,一切都很安静,什么也没有发生。 换班时查看监控:哎呀,晚上交换机数据处理掉线了,还好红灯长亮了。 我整晚都盯着这个信号,但没有察觉到它什么的。 尽管这是最明显、最直观的监控之一,但我仍然不明白为什么我没有看到它。
这里没有任何借口,联合是纯粹的,百分百的,第五类事故,很可能被解雇。 经过十二个小时的夜班直到午餐,他们骚扰我并强迫我写解释说明。 由于没有人相信真相,我只好胡言乱语,因为受伤,我过度使用止痛药并睡着了。 服务主管在他的办公室里对我大喊大叫,总的来说,一切都朝着解雇的方向发展——但这导致了谴责和剥夺奖金。 那时Mega已经好几年没有看到奖金了,所以我并没有受到任何伤害。

还记得技术总监到来时的那一幕:一天晚上,一些乡巴佬挤在值班室里,开始大喊大叫,说我们没上锁(值班室原则上不应该上锁),说我们是这里的鹿,说我们是鹿。早上他希望我们所有人都能对我们所有的错误做出解释性说明。 这个乡巴佬是安全部门的负责人,他很兴奋。 保安队长大喊一声后就跑进黑暗里了,早上我们问老板:“我们该怎么办?” “管他的,”他回答道,事件就这样结束了。

我是如何打破这个部门的

在那些日子里,bashorg(当时仍然是 bash.org.ru,而不是现在的样子)是一种狂热的资源。 几乎每个月都会出现几次报价,并且拥有您自己的! 引用!!! 狂欢!!! 就像 XNUMX 年拥有自己的二级域名一样酷。 那个 bashorg 在某种程度上更像是 IT 动漫,尽管它对每个人来说都很有趣。

最年轻的工程师(也就是我的)的每个早晨工作都是从阅读 bashorg 开始的——在十二个小时的痛苦之前三十秒的笑声。

有一次,一位同事问我在笑什么。 我给他看了什么。 他将链接发送给了整个部门。

工作停了几天:令我惊讶的是,直到那一刻我的同事才知道 bash。 值班室里一片笑声:“啊哈哈哈哈,打补丁KDE,啊哈哈哈哈!” “哥哥哥哥,把撬棍淹没在水银里吧,哥哥哥!” 虽然损失了一个工作日,但另一方面,他们的寿命却大大延长了。

读完的人有奖励

请记住,在大胡子时代有这样一个流行的笑话:“我在诺顿中看到两个 C 驱动器,我想 - 为什么我需要两个? 好吧,我删掉了一个!” 这很让人想起我最喜欢的故事之一,这个故事不是我自己讲的,而是我自己讲的。 每次都和第一次一样有趣:

18+,但你无法删除歌曲中的歌词
值班地窖的故事

后记

这些故事是对我的 TG 频道的一些帖子进行处理后的汇编。 有时类似的游戏会从那里溜走; 我并不是在暗示什么,但是 一个参考 无论如何我都会留下它。

祝大家度过一个愉快的周五!

来源: habr.com

添加评论