АВР и все, все, все: автоматический ввод резерва в дата-центре
В прошлом посте про PDU мы говорили, что в некоторых стойках установлен АВР — автоматический ввод резерва. Но на самом деле в ЦОДе АВР ставят не только в стойке, но и на всем пути электричества. В разных местах они решают разные задачи:
в главных распределительных щитах (ГРЩ) АВР переключает нагрузку между вводом от города и резервным питанием от дизель-генераторных установок (ДГУ);
в источниках бесперебойного питания (ИБП) АВР переключает нагрузку с основного ввода на байпас (об этом чуть ниже);
в стойках АВР переключает нагрузку с одного ввода на другой в случае возникновения проблем с одним из вводов.
АВР в стандартной схеме энергоснабжения дата-центров DataLine.
О том, какие АВР и где используются, и поговорим сегодня.
Основных типа АВР два: ATS (automatic transfer switch) и STS (static transfer switch). Они отличаются принципами работы и элементной базой и используются для разных задач. Если вкратце, то STS — это более «умный» ATS. Он быстрее переключает нагрузку и чаще используется для больших нагрузок/токов. Он более гибок в настройке, зато «с капризами» к сети: может отказаться работать, если 2 ввода питаются от разных источников, например: от трансформатора и ДГУ.
АВР в ГРЩ
Главный АВР дата-центра двадцать лет назад выглядел как сложная система контакторов и реле.
АВР образца начала 2000-х.
Сейчас АВР — это компактное многофункциональное устройство.
Система АВР в ГРЩ управляет вводными автоматами и дает команды на запуск и остановку ДГУ. При нагрузке более 2 МВт на уровне ГРЩ нецелесообразно гнаться за скоростью. Даже если переключится быстро, то пройдет время, пока запустится ДГУ. В этой системе используются более «медленные» ATS и выставляются задержки (уставки). Работает это так: когда питание дата-центра от трансформаторов пропадает, АВР командует устройствам: «Трансформатор, выключись. Теперь ждем 10 секунд (уставка), ДГУ, включись, ждем еще 10 секунд».
АВР в ИБП
На примере ИБП посмотрим, как работает второй тип АВР — STS или static transfer switch.
В ИБП переменный ток преобразуется в постоянный на выпрямителе. Затем на инверторе он превращается обратно в переменный ток, но уже со стабильными параметрами. Это устраняет помехи и повышает качество энергии. При отключении основного источника питания ИБП переключается на аккумуляторные батареи и питает дата-центр, пока в работу включаются ДГУ.
Но что, если из строя выйдет какой-то из элементов: выпрямитель, инвертор или аккумуляторные батареи? На этот случай в каждом ИБП есть механизм обходного пути, или байпас. С ним устройство продолжает работу в обход основных элементов, сразу от входного напряжения. Также байпасом пользуются, когда нужно выключить ИБП и вывести его в ремонт.
STS в ИБП нужен, чтобы безопасно перейти на байпасный ввод. Если коротко, то STS контролирует параметры сети на входе и на выходе, дожидается, когда они совпадут, и переключается в безопасных условиях.
АВР в стойке
Итак, к стойке подведены два ввода электропитания. Если у вашего оборудования два блока питания, вы спокойно подключаете его к разным PDU, и пропадание одного ввода вам не страшно. А если у вашего сервера один блок питания?
В стойке АВР используют, чтобы профит от двух вводов не пропал даром. При проблемах с одним из вводов АВР переключает нагрузку на другой ввод.
Дисклеймер: Если можете, избегайте оборудования с одним блоком питания, чтобы не создавать точку отказа в системе. Дальше мы покажем, в чем недостатки такой схемы подключения.
Задача АВР в стойке — переключить оборудование на рабочий ввод так быстро, чтобы в его работе не было перерыва. Нужную для этого скорость нашли опытным путем: не больше 20 мс. Посмотрим, как это обнаружили.
Сбои в работе серверного оборудования происходят из-за провалов напряжения (из-за работ на подстанциях, подключения мощных нагрузок или аварий). Чтобы проиллюстрировать, как оборудование выдерживает разную амплитуду и длительность перепадов напряжения, разработали кривые безопасной работы электрооборудования CBEMA (Computer and Business Equipment Manufacturers Association). Сейчас они известны как кривые ITIC (Information Technology Industry Council), их варианты включены в стандарты IEEE 446 ANSI (это аналог наших ГОСТов).
Сверимся с графиком. Наша задача, чтобы устройства работали в «зеленой зоне». На кривой ITIC мы видим, что оборудование готово «терпеть» провал максимум 20 мс. Поэтому мы ориентируемся, чтобы АВР в стойке отрабатывал за 20 мс, а лучше — еще быстрее.
Устройство АВР. Типовой АВР (ATS) в стойке нашего ЦОДа занимает 1 юнит и выдерживает нагрузку 16 А.
На дисплее видим, от какого ввода питается АВР, сколько подключенные устройства потребляют в амперах. Отдельной кнопкой выбираем, отдать приоритет первому или второму вводу. Справа — порты для подключения к АВР:
Ethernet port — подключить мониторинг;
Serial port — зайти через ноутбук и посмотреть в логах, что происходит;
USB — вставить флешку и обновить прошивку.
Порты взаимозаменяемые: можно выполнить все эти операции, если есть доступ хотя бы к одному из них.
На тыльной стороне — вилки для подключения основного и резервного вводов и розеточная группа для подключения ИТ-оборудования.
Подробные характеристики АВР мы смотрим через веб-интерфейс. Там настраивается чувствительность переключения и видны логи.
Веб-интерфейс АВР.
Установка и подключение АВР. Устанавливать АВР по высоте лучше в середину стойки. Если мы заранее не знаем комплектацию стойки, то так оборудование с одним блоком питания сможет дотянуться проводами и с нижней, и с верхней части.
А вот дальше есть нюансы: глубина стандартной стойки гораздо больше, чем глубина АВР. Мы рекомендуем установить его как можно ближе к холодному коридору по двум причинам:
Доступ к передней панели. Если установить АВР ближе к горячему коридору, мы увидим индикацию, но не сможем подключиться к нему через порты. А значит, не сможем посмотреть логи или перезагрузить устройство.
Где-то там, в глубине, мигает АВР — до порта уже не дотянуться.
Холодоснабжение. АВР рекомендуют использовать при температуре не более 45°С. При этом у него нет своих вентиляторов для охлаждения, это просто металлическое устройство с электронной начинкой. Поддерживают нужную температуру двумя способами:
потоками воздуха, которые дуют на него извне;
крепежами, которые уводят лишнее тепло.
Если установить АВР со стороны горячего коридора и вдобавок зажать его пирогом из серверов, то мы получим печку. В лучшем случае у АВР сгорят мозги и он потеряет связь с внешним миром, в худшем — начнет хаотично переключать нагрузку или бросит ее.
АВР парится лицом к горячему коридору.
Был случай. Инженер на обходе услышал нехарактерные щелчки.
В недрах горячего коридора под грудой серверов обнаружился АВР, который постоянно переключался с основного ввода на резервный.
АВР заменили. Логи показали, что целую неделю он переключался каждую секунду — итого более полумиллиона коммутаций. Вот как это было
Какие еще АВР бывают в стойке
Вводный ATS для стойки. В нашем ЦОДе такой АВР выступает единственным источником распределения питания в стойке: работает как АВР+PDU. Занимает несколько юнитов, выдерживает нагрузку 32 А, подключается промышленными разъемами и может питать до 6 КВт оборудования. Использовать его можно, когда нет возможности смонтировать стандартные PDU, а одноблочное оборудование в стойке не обслуживает критичные нагрузки.
Cтоечный STS. STS в стойке используется для оборудования, чувствительного к перепадам напряжения. Этот АВР переключается быстрее, чем ATS.
Этот конкретный STS занимает 6 юнитов и у него немного «винтажный» интерфейс.
Мини-АВР. Бывают и такие малышки, но у нас в ЦОДе такого не водится. Это мини-АВР для одного сервера.
Этот АВР подключается прямо в блок питания сервера.
Как мы ищем идеальный АВР
Мы тестируем много разных АВР и проверяем, как они ведут себя в условиях высоких температур.
Вот как издеваемся над АВР, чтобы это проверить:
подключаем к нему регистратор качества сети, сервер и еще несколько устройств для нагрузки;
изолируем стойку заглушками или пленкой, чтобы достичь высокой температуры;
нагреваем до 50°С;
поочередно отключаем вводы по 20 раз;
смотрим, не было ли провалов питания, как себя чувствует сервер;
если АВР проходит тест — нагреваем до 70°С.
Фото тепловизором с одного из испытаний.
Анализатор сети фиксирует напряжение с течением времени. На записи видим, сколько длилось переключение: на этот момент синусоида прервалась
Кстати, берем АВР на тест: проверим ваше устройство на прочность и расскажем, что получилось 😉
АВР в стойке: скрытая угроза
Главная проблема с АВР в стойке в том, что он умеет только переключать нагрузку с основного на резервный ввод, но не защищает от короткого замыкания или перегрузки. Если на блоке питания происходит короткое замыкание, то по защите сработает автоматический выключатель уровнем выше: на PDU или в распределительном щите. В результате один ввод отключается, АВР это понимает и переключается на второй ввод. Если короткое замыкание еще остается, сработает автоматический выключатель второго ввода. В итоге из-за проблемы на одном оборудовании может обесточиться вся стойка.
Так что еще раз повторю: тысячу раз подумайте, прежде чем устанавливать АВР в стойку и использовать оборудование с одним блоком питания.