Качество беспроводной сети уже по-умолчанию включается в понятие уровня сервиса. И если хочется удовлетворить высокие запросы клиентов, нужно не только быстро бороться с возникшими сетевыми проблемами, но и предсказывать наиболее массовые из них.
Как это сделать? Только отследив то, что действительно важно в данном контексте — взаимодействие пользователя с беспроводной сетью.
Нагрузки на сети продолжают расти, и особенно это влияет на беспроводные сегменты — хотя бы из-за открытости их интерфейса. С ростом количества устройств и скоростей передачи данных проблемы множатся сразу на нескольких уровнях. На физическом — множество передатчиков радиосигнала влияют друг на друга, даже если работают на соседних участках частотного спектра. На логическом — большое количество подключенных устройств начинают конкурировать за право начать передачу на выбранной частоте, увеличивая задержку доставки пакетов для каждого пользователя.
Одновременно с этим растут и ожидания каждого клиента от использования сети. 5-секундной загрузкой страницы в браузере, которая еще лет 20 назад казалась «верхом технологи», уже никого не удивишь. Клиентам подавай HD-видеосвязь без замираний картинки.
Частично решить вопрос позволяют новые версии стандартов беспроводной передачи, эффективнее использующие частотный спектр. Каждая
Почему обычный мониторинг уже не работает
Классический штамп, до сих пор преследующий администраторов всех сетей, в том числе беспроводных, – работа исключительно по заявкам. Сработал «alarm» — просыпаемся и разбираемся, что пошло не так. А пока «alarm-а» нет, можно ограничиваться проверкой нагрузки на основные компоненты – сетевых и пользовательских устройств.
В соответствии с этой задачей традиционные инструменты мониторинга и обслуживания работают по принципу жестких правил и не всегда оперативно показывают уже существующие проблемы, не говоря уже о каком-то предиктивном анализе.
Главная проблема здесь — в интервале сбора данных. Информация о состоянии беспроводных сетевых подключений собирается раз в минуты, а инциденты вполне могут происходить в интервалах между сбором показаний (отличный пример — редкие всплески нагрузки, «подвешивающие» сеть). Не получая данные в режиме реального времени, довольно сложно понять, что стало глубинной причиной проблемы. Это неправильное управление сетевым покрытием? Или, быть может, внешние помехи, никак не связанные с бизнесом (допустим, военная часть рядом «нашалила» в эфире). Нет данных, где можно было бы увидеть постепенную деградацию определенных характеристик сети, а значит и локализовать проблему не так просто. IT-персоналу придется потратить лишние часы на поиск такой «иголки в стоге сена».
Зато конечные пользователи проблему замечают практически сразу. Ошибка подключения, обрыв трансляции видео – отличные маркеры.
Классические средства мониторинга сообщают, что сетевые пакеты идут. Но они никак не могут ответить на вопрос, а решил ли пользователь свою задачу.
Чтобы получить ответ на этот вопрос, придется менять не просто инструмент, но сам подход к организации мониторинга. От «пожарной» работы по заявкам (фактически, контроля производительности и нагрузки конкретного железа) переходить к контролю пользовательского опыта и выявлению ситуаций, способных привести к инцидентам.
Данная трансформация подразумевает внедрение более сложных алгоритмов определения проблемы, нежели простые предупреждения по достижении определенных значений. В платформе интеллектуального сетевого анализа Huawei CampusInsight эти алгоритмы базируются на опыте обслуживания беспроводных сетей и техниках самообучения.
Под капотом CampusInsight
Huawei CampusInsight – масштабируемая платформа мониторинга беспроводных сетей различного масштаба. Построена на базе микросервисной архитектуры. Каждый сервис развернут на нескольких инстансах, сообщения между которыми распределяет соответствующая шина. Дополнительные инстансы могут развертываться динамически, повышая пропускную способность инструмента.
Фактически CampusInsight собирает, анализирует и отображает данные в своем UI за пять шагов.
Первый и второй шаг — это доступ к данным (к устройствам, обеспечивающим их генерацию) и сбор «показаний». Используя потоковый сбор телеметрии по протоколу GPB от Google и «традиционный» Syslog (там, где это возможно), Huawei CampusInsight практически в режиме реального времени аккумулирует данные:
- об утилизации частотного спектра;
- о функционировании точек доступа и других сетевых устройств (показатели производительности, количество подключенных пользователей и т.п.);
- о пути конкретных пользователей — о сетевых профилях, о том, кто, когда и к какой точке доступа подключился или не подключился (и с какими параметрами соединения);
- о работе аудио-видео приложений (используя eMDI, реализованную в одном из дополнительных пакетов).
Чтобы обойти ограничения традиционных инструментов, использующих для сбора данных SNMP и пересылку фиксированных структур, в основе CampusInsight была заложена модель подписки на нужные логи и алгоритмы кодирования и декодирования данных.
Третий шаг — распределение и буферизация — т.е. отправка «сырых» данных в Kafka для распределения в более высокоуровневые службы анализа.
Четвертый шаг — анализ. Алгоритмы Big Data и AI помогают быстро обрабатывать «сырые» данные. В результате выявляются отдельные проблемы, связанные с:
- аутентификацией (поддерживается протокол Dot1x) и работой DHCP;
- стабильностью и скоростью соединения;
- беспроводными интерфейсами;
- работой отдельных устройств, включая «частности», вроде проблем с PoE или переключения двухдиапазонного устройства на 2,4 ГГц;
- качеством аудио-видео потоков — правда, функция поддерживается только для нешифрованного SIP или для некоторых коммутаторов;
- роумингом между разными точками доступа.
Алгоритмы ИИ используются для решения некоторых частных задач, например, выявления интерференции между каналами при беспроводной передаче.
Пятый и последний шаг — сохранение данных в колоночной распределенной БД Druid для последующего использования.
Анализ собираемой информации с учетом построенной по тем самым историческим данным «базовой линии» позволяет выявить типичные «паттерны неудач» — определяя KPI, соответствующие проблемным ситуациям, и локализовать проблемы, предложив пути их решения. Таким образом во внимание инструмента попадает порядка 85% всех сетевых проблем.
Администратору данные представляются в графическом виде в соответствии с иерархией или топологией пространства (например, планировкой офиса). Можно строить «тепловые карты», анализировать, насколько затронуто оборудование определенных платформ или производителей и т.п. Так проще понять, что именно вызвало проблему.
В целом CampusInsight предоставляет довольно много инструментов, позволяющих классифицировать проблемы, сравнивать затронутых пользователей, изучать данные о работе конкретного клиента и даже «проиграть» события, предшествовавшие инциденту, чтобы быстро выявить источник. При этом продукт поддерживает в том числе и новый Wi-Fi 6, не говоря уже о предшественниках.
Кейсы
CampusInsight уже обкатан на практике, хотя большая часть кейсов закрыта NDA. Самый показательный открытый кейс – применение инструмента мониторинга в собственной беспроводной сети Huawei.
Сеть охватывает предприятия, где заняты порядка 180 тыс. человек, из которых 80 тыс. относятся к R&D подразделению (это офисы более чем в 170 странах, где установлено в общей сложности 62 тыс. точек доступа).
Внедрение CampusInsight помогло оптимизировать более 630 точек доступа, одновременно повысив эффективность разбора инцидентов на 30%.
Ниже – пара конкретных ситуаций.
Пример 1. Групповой сбой
Высокоуровневые проблемы, наблюдающиеся на большом количестве пользователей, часто являются следствием низкоуровневых ошибок. И такие проблемы выявить не так просто. Например, в одном из офисов сразу множество мобильных клиентов испытывали сложности с аутентификацией, несмотря на корректность настроек и отсутствие проблем с сервером аутентификации. Визуализация данных на разных уровнях помогла быстро выявить, что источником проблемы был свич, выдававший слишком много ошибок. А для исправления ситуации потребовалось всего лишь заменить кусок кабеля. Локализация и исправление проблемы заняли 90 минут.
Пример 2. Отслеживание качества роуминга
Сбор данных по пути конкретного клиента внутри распределенной сети позволяет выявлять неочевидные проблемы роуминга. Распространенный случай – когда в отдельных зонах здания у мобильных пользователей возникают проблемы с подключением к сети (хотя, казалось бы, соответствующая точка доступа в порядке). Одним из источников таких проблем может быть слишком высокая мощность точки доступа в соседнем помещении – так что вместо подключения к ближайшей точке, клиент пытается подключиться к той, которая в данный момент и так обслуживает большое количество пользователей (реальный случай: подключение к точке доступа в конференц-зале, когда пользователь просто проходит мимо).
Для решения проблемы иногда достаточно снизить мощность сигнала нагруженной точки, однако выявление требует глубокого анализа повторяющихся проблем в смежных с конференц-залом помещениях.
Прослеживая тенденции развития беспроводных сетей, можно ожидать, что с проблемами обслуживания в обозримом будущем столкнутся не только гиганты, чьи сети насчитывают тысячи точек доступа, но и средний бизнес, который пока может ограничиваться работой по инцидентам. Предполагая такое развитие событий, логично присматриваться к новым, более эффективным стандартам и высокопроизводительному оборудованию. Но стоит помнить и о необходимой смене парадигмы обслуживания сети, пока еще клиенты не начали массовую миграцию к конкурентам из-за качества сервиса.
Конечно, онсайт продукт класса CampusInsight наибольшую пользу принесет в масштабных внедрениях, но сейчас доступна и облачная подписка на сервис из локального Public Cloud Huawei, рассчитанная на внедрения в SMB секторе. В общем, желающие могут все попробовать и «покрутить» уже сейчас.
Источник: habr.com