大家好。 正如我们所承诺的,我们将让 Habr 读者深入了解俄罗斯硬件平台的生产细节,该平台适用于 Elbrus 处理器上的 Aerodisk Vostok 存储系统。 在本文中,我们将逐步描述Yakhont-UVM E124平台的制作,该平台有效地容纳5个单元中的124个磁盘,可以在+30摄氏度的温度下运行,同时不仅可以工作,而且可以工作出色地。
我们还将于 05.06.2020 年 XNUMX 月 XNUMX 日组织一次网络研讨会,我们将详细讨论 Vostok 存储系统生产的技术细微差别并回答任何问题。 您可以使用以下链接注册参加网络研讨会:
所以,我们走吧!
在深入了解现在正在组织的流程之前,先了解一下两年前的历史背景。 当本文描述的平台开始开发时,温和地说,其生产条件还不存在。 这是有原因的,众所周知:俄罗斯服务器平台的大规模生产(即生产,而不是重新粘贴贴纸)作为一个类别不存在。 有单独的工厂可以生产单独的组件,但方式非常有限,而且通常基于过时的技术。 因此,我们必须“从头开始”,同时将俄罗斯服务器解决方案的生产提高到一个质的新水平。
因此,任何生产过程都是从需求开始的,然后转化为一般需求。 这些要求最初是由下诺夫哥罗德的 NORSI-TRANS 开发商制定的。 当然,要求不是凭空提出的,而是来自于客户的需求。 这还不是一项技术任务,因为它看起来可能是错误的。 在通用需求阶段,由于生产的未知条件太多,不可能制定完整的技术规范。
目标模型的开发:从想法到实施
总体要求形成后,就开始选择元件基础。 从历史信息来看,元素库不存在,也就是说,必须创建它。
为此,需要从公开市场上提供的样本中组装出一个试点样本,该样本至少与目标样本有些相似。 接下来,对该样品进行标准测试以确定其性能。 如果一切顺利,那么下一步就是开发目标模型(2D 和 3D)。
然后开始寻找准备开始生产该试点产品的俄罗斯企业,开发人员根据特定企业的能力对产品的每个元素进行必要的修改。
在设计过程中,会对每个产品元素进行必要的修改。 例如,在使用原型时,使用了具有大量电线的经典 12G SAS 扩展器(考虑到磁盘数量,非常大)。 它并不便宜,对于这个特定的平台来说不方便,而且敌人的扩展器是外国的。 但这只是一个临时解决方案,以便对样本进行整体测试并进入下一阶段。 然而,最终版本不适合在特定服务器平台上使用SAS扩展器。
我们不需要敌人的扩展器,我们将用二十一点和 sh 制作我们自己的背板...
考虑到未来的生产量计划(数千台服务器),我们决定为该产品(当然还有后续产品)开发我们自己的 SAS 背板,该背板比与该解决方案相关的扩展器功能更强大。 背板的设计和编程是由同一个开发团队进行的,主板的生产是在莫斯科地区的 Microlit 工厂进行的(我们承诺将有一篇单独的文章介绍该工厂以及 Elbrus 处理器的主板是如何生产的)印在那里)。
顺便说一下,这是它的第一个原型,现在看起来完全不同了。
他们正在对其进行编程
有趣的事实:当背板开发开始时,设计人员向 SAS3 芯片开发商寻求参考板设计,结果发现欧洲没有一家公司知道如何开发自己的背板。 此前曾有一家富士通-西门子合资企业,但在西门子利多富信息系统股份公司离开该合资企业以及西门子计算机部门彻底关闭后,欧洲在该领域的能力丧失了。
因此,芯片开发商最初并没有立即认真对待NORSI-TRANS的开发,从而导致最终设计的开发延迟。 确实,后来,当 NORSI-TRANS 公司的意图和能力的严肃性变得明显,并且背板被开发和印刷时,他的态度发生了好转。
如何冷却 124 台 5 个磁盘和一台服务器,并保持活力?
还有一个关于食物和冷却的单独任务。 事实是,根据要求,E124平台必须在30摄氏度的温度下运行,并且在一分钟内,有124个单元的5个良好加热的机械磁盘,而且还有一个带有处理器的主板(即这不是愚蠢的 JBOD,而是一个成熟的带磁盘的存储系统控制器)。
为了冷却(除了内部的小风扇),我们最终决定在机箱后部使用三个相当大的风扇,每个风扇都可以热插拔。 对于系统的正常运行,两个就足够了(温度完全不变),因此您可以放心地计划更换风扇的工作,而不必考虑温度。 如果你关掉两个风扇(比如根据卑鄙法则,更换一个风扇时,第二个就坏了),那么用一个风扇系统也能正常工作,但温度会升高10-20%百分比,只要很快至少再安装一个风扇,这是可以接受的。
粉丝(就像几乎所有其他东西一样)也被证明是独一无二的。 其独特性的原因在于一项成本。 在某些情况下,风扇可能会开始将空气吸入,而不是吸入空气,而是从内部吹动整个机箱,然后“再见”,即平台将很快过热。 因此,为了防止出现此类问题,我们对风扇设计进行了更改,并添加了我们自己的“专有技术”——止回阀。 该止回阀可以平静地将空气吸出平台,但同时阻止在任何情况下将空气吸回的可能性。
在冷却系统的试点阶段,出现了很多故障,系统的各个元件过热和烧毁,但最终,平台开发人员成功实现了比世界著名竞争对手更好的冷却效果。
“饮食不能违背。”
电源也有类似的情况,即它们是专门为这个平台制作的,原因很平常。 每个单位都是很多钱,这就是为什么要开发这样一个超密集的平台,如果我没记错的话(如果我错了,请在评论中纠正),这是迄今为止的世界纪录,因为尚不存在具有 5 台大量磁盘的服务器或 JBOD。
因此,为了给平台提供电力,同时组织在正常模式下更换电源的可能性,有源单元的总功率必须为4千瓦(当然,市面上没有这样的解决方案)市场),因此它们是通过启动批量生产的生产线来定制的(让我提醒您,有计划生产数千台此类服务器)。
正如该平台的一位主要设计师所说,“这里的电流就像焊接机中的电流 - 这不是很有趣:-)”
在设计过程中,电源不仅可以在220V下运行,还可以在48V下运行,即OPC架构,现在对于电信运营商和大型数据中心来说非常重要。
因此,带电源的解决方案重复了带冷却的解决方案的逻辑;该平台可以轻松地使用两个电源运行,这使得可以照常进行更换工作。 如果发生事故,三个供电单元中只剩下一个,它将能够在峰值负载时拉出平台的工作,但是,当然,不可能以这种形式离开平台许久。
金属和塑料:事实证明,并非一切都那么简单。
平台开发过程中有许多细微差别。 类似的情况不仅发生在电子元件(转接板、背板、主板等)上,也发生在普通金属和塑料上:例如机箱、导轨,甚至磁盘托架。
看起来,身体和平台上其他不太智能的元素应该没有问题。 但实际上一切都不同。 当平台开发人员第一次向俄罗斯各工厂询问生产需求时,发现大多数工厂都使用相当不现代的方法进行工作,这最终影响了产品的质量和数量。
案件的第一批结果证实了这一点。 不正确的几何形状、粗糙的焊缝、不准确的孔和类似的成本使该产品不适合使用。
大多数能够制造服务器机箱的工厂当时(让我提醒您,“当时”指的是两年前)都是“老式方式”,也就是说,他们制作了一堆设计文档,根据这些文档,操作员手动调整机器的操作,也经常使用金属焊接代替铆钉。 结果,自动化程度低、人为因素和生产过度官僚化带来了后果。 事实证明它又长又糟糕而且昂贵。
我们必须向工厂致敬:从那时起,许多工厂的生产已经实现了极大的现代化。 我们提高了焊接质量,掌握了铆接技术,并且还经常开始使用计算机数控(CNC)机器。 现在,产品数据不再需要大量文档,而是直接从 3D 和 2D 模型加载到 CNC 中。
CNC将机器操作员对产品制造过程的干预降到最低,人为因素不再干扰生活。 操作人员主要关注的是准备操作和最终操作:产品的安装和拆卸、设置工具等。
当新零件出现时,生产不再陷入停滞;要生产它们,只需对 CNC 软件进行更改即可。 因此,工厂新项目零件的生产时间从几个月缩短到几周,这是个好消息。 当然,准确率也大大提高了。
主板和处理器:没问题
处理器和主板在出厂时是成套的。 该产品已经相当完善,因此 NORSI 在成品平台层面执行标准输入控制和输出控制。
每套主板和处理器均使用从 MCST 获得的软件进行测试。
如果出现某些问题(谢天谢地,主板和处理器的问题很少),有一个运作良好的链将模块返回给制造商并进行更换。
装配和最终控制
为了让我们的巴拉莱卡琴开始演奏,剩下的就是组装和测试它。 现在生产已投入生产,该系统在莫斯科以标准方式组装。
每个系统都配有启动 SSD(用于操作系统)和完整主轴(用于未来数据)。
此后,平台本身和安装在其上的磁盘的输入测试开始。 为此,系统中的所有磁盘都会加载自动测试至少一个小时。
对每个磁盘进行自动读写,记录每个磁盘的读取速度、写入速度和温度。 正常模式下,平均温度应在30-35摄氏度左右。 在峰值时,每个单独的磁盘可以“弹跳”高达 40 度。 如果温度升高或速度低于读写阈值,磁盘会变成红色并且拒绝失败。 通过测试的组件被包装以供进一步使用。
结论
有一个神话得到了各种人士的积极支持,即“在俄罗斯,除了抽油之外,他们不知道如何做任何事情。” 不幸的是,这个神话甚至侵蚀了受人尊敬和聪明人的头脑。
最近,我的一位同事身上发生了一件非凡的故事。 他正在从 Vostok 存储系统的一个显示器上开车,这个存储系统位于他的汽车后备箱中(当然不是 E124,它更简单)。 途中,他抓获了一位客户代表(一个非常重要的人物,在政府机构之一担任高级职务),他们在车上大致进行了以下对话:
我的同事: “我们刚刚在厄尔布鲁士峰上展示了存储系统,结果很好,大家都很高兴,顺便说一句,这个存储系统对你们的行业也很有用。”
客户: “我知道你们有储存系统,但你们说的厄尔布鲁士是什么样的?”
我的同事: “嗯......俄罗斯处理器Elbrus,他们最近发布了8,在存储系统的性能方面,我们相应地在其上制作了一个新的存储系统系列,称为Vostok”
客户: “厄尔布鲁士山是一座山! 不要在上流社会中讲述有关俄罗斯处理器的童话故事,这一切都是为了吸收预算,实际上什么也没有,也不会发生。”
我的同事: “按照? 这个特定的存储系统放在我的后备箱里可以吗? 我们现在就停下来,我示范给你看!”
客户: “忍受废话是件好事,让我们继续前进,没有‘俄罗斯存储系统’——这基本上是不可能的”
在那一刻,这位重要人物不想再听到任何有关厄尔布鲁士峰的事情。 当然,后来当他澄清这个消息时,他也承认了自己的错误,但直到最后,他仍然不相信这个消息的真实性。
事实上,苏联解体后,我国实际上就停止了微电子生产的发展。 有些东西是为了跨国公司的利益而被出口和盗窃的,有些东西是被当地私有化公司偷走的,有些东西当然是被投资的,但主要是为了同一跨国公司的利益。 树被砍倒了,但根还留着。
在对“西方将帮助我们”这个话题抱有近30年的幻想之后,几乎每个人都清楚地意识到我们只能帮助自己,因此我们不仅需要在微电子领域恢复生产,而且需要在所有行业恢复生产。
当前,在全球疫情大流行、跨国生产链实际上已停止的情况下,恢复本土生产已不再是预算的制定,而是俄罗斯生存的条件。一个独立的国家。
因此,我们将继续在生活中寻找和使用俄罗斯设备,并告诉您我们的公司实际上在做什么,他们面临哪些问题以及他们为解决这些问题做出了哪些巨大的努力。
在一篇文章中谈论制作的所有方面是相当困难的,因此作为奖励,我们将以网络研讨会的形式组织关于此主题的在线讨论。 在本次网络研讨会上,我们将详细、生动地讨论用于 Vostok 存储系统的 Yakhont 平台生产的技术方面,并将在线回答所有问题,甚至是最棘手的问题。
我们的对话者将是平台开发商 NORSI-TRANS 公司的代表。 该网络研讨会将于 05.06.2020 年 XNUMX 月 XNUMX 日举行;希望参加的人可以通过以下链接注册:
谢谢大家,一如既往,我们期待建设性的意见。
来源: habr.com