Робимо підтримку дешевше, намагаючись не розгубити якість

Робимо підтримку дешевше, намагаючись не розгубити якістьАварійний режим (також згадується як IPKVM), що дозволяє підключатися до VPS без RDP прямо з рівня гіпервізора, заощаджує 15-20 хвилин на тиждень.

Перше і головне — не розлючувати людей. У всьому світі підтримка поділена на лінії, і співробітник першої повинен спробувати типові способи вирішення. Якщо завдання вибивається за межі — передати другий лінії. Так от серед адміністраторів VDS досить часто трапляються люди, які вміють думати. На відміну від багатьох інших підтримок. Ну, принаймні, значно частіше. І вони добре структурують тикет, одразу описуючи все, що потрібно. Якщо перша лінія «очей замилиться» і вони випадково у відповідь на таке попросять включити і вимкнути — це фіаско.

Завдання коштує дуже просте: зробити підтримку нашого VDS-хостингу адекватним при мінімумі витрат. Тому що ми є фастфуд світу хостинг-провайдерів: ніякого особливого «облизування», низькі ціни, нормальна якість. Раніше вже була розповідь про те, що з появою інстаграм-няшок, які намагаються автоматизувати ведення акаунту і власників малого бізнесу з віддаленою бухгалтерією та інших не дуже прокачаних в технологіях людей, спілкування «як адмін з адміном» перекочувати перестало. Довелося змінювати мову спілкування.

Тепер розповім про процеси трохи більше — і про неминучі косяки з ними.

Не дратувати людей № 1

Будь-яка підтримка – це конвеєрне виробництво. Приходить заявка, співробітник першої лінії відразу намагається розпізнати типову ситуацію, яка тисячу разів вже траплялася і тисячу разів ще станеться. Шанс 90%, що заявка типова, і відповісти на неї можна натисканням буквально пари кнопок, щоб підставився шаблон. У шаблон зазвичай потрібно вписати кілька слів і готове. Або зайти в інтерфейс керування та натиснути там пару кнопок. У більш складних випадках (перенесення із зони в зону, наприклад) потрібно виконати дії за алгоритмом.

Те, що найбільше дратує людей незалежно від інших якостей підтримки, — це типова реакція на нетипову заявку. Приходить тикет, де все докладно описано, є купа необхідних даних на три питання вперед, клієнт передбачає діалог ... І за першими словами співробітник підтримки на автопілоті набирає акорд для підстановки шаблону "спробуйте перезавантажити, має допомогти".

Саме це прямо розкриває мозок людям, і саме після таких ситуацій залишається найбільше негативних відгуків та гнівних коментарів. Зрозуміло, що ми помилялися, звідти й знаємо статистику. Ми взагалі по-різному помилялися, але такі випадки це завжди просто дико. У тому числі для нас самих. Ми, звичайно, хотіли б, щоб такого не траплялося зовсім. Але це не дуже можливо на практиці: раз на кілька тижнів втомлений від одноманітності співробітник ні-ні та й натисне веселі кнопки.

Не дратувати людей № 2

Друге, що з рівним успіхом розкриває мозок, це коли на тикет ніхто не відповідає досить довго. У Європі така поведінка підтримки є нормальною: три дні до прийняття інциденту в роботу — більш ніж норма. Навіть якщо вам дуже терміново і щось горить — ні соцмереж, ні телефону, ні месенджера, тільки пошта і чекайте на свою чергу. У Росії таке набагато менш поширене, але все одно деякі тикети «забуваються». Ще на початку роботи поставили SLA на першу реакцію 15 хвилин. І це за 24/7 чесного. Зрозуміло, коли VDS-хостинг стає великим, це з'являється. Але сумнівні провайдери послуг такого не мають. А ми на старті були саме сумнівними і тільки потім стали більш-менш великим. Гаразд, більш-менш середнім.

Перша лінія — оператори, яким дали скрипти та навчили реагувати на типові ситуації. Вони швидко-швидко сортують проблеми та намагаються за 15 хвилин або відповісти типовою дією, або повідомити про те, що тикет у роботі, та передати у другу.

Друга лінія вже адміністратори хостингу, вони вміють майже все робити руками. Там же керівник підтримки, який вміє робити все і ще трохи. Третя лінія — вже розробники, до них потрапляють тікети на кшталт «виправте ось це в інтерфейсі» або «неправильно враховується такий параметр там».

Зменшувати кількість заявок

Зі зрозумілих причин, якщо ви хочете надавати підтримку дешево, то потрібно не збільшувати першу лінію, щоб люди зі скриптами справлялися швидше, а збільшувати автоматизацію. Щоб замість людей із скриптами були справжні скрипти. Тому одна з перших речей, яку ми зробили, — це автоматизували процеси підняття віртуальної машини, масштабування за ресурсами (у тому числі диском вгору і вниз, але не частотою процесора) та іншими подібними речами. Чим більше користувач може з інтерфейсу, тим простіше жити першої лінії, і менше вона може бути. Коли користувач звертається з чимось, що є в особистому кабінеті, потрібно зробити і розповісти, як це можна виконати самостійно.

Якщо тобі не потрібна підтримка, то вона справляється добре.

Друга особливість, яка дуже береже час, – це довге заповнення бази знань. Якщо у користувача проблема, яка не входить до списку підтримуваних дій (найчастіше це питання рівня «як поставити сервер Майнкрафта» або «Де у Win Server налаштувати VPS»), то пишеться стаття в базу знань. Така сама докладна стаття пишеться на всі дивні запити. Наприклад, якщо користувач просить підтримку видалити вбудований файл Windows Server, то ми відправляємо читати про те, що буде, якщо його реально відключити, і як прокинути дозволи тільки для вибраного софту. Тому що проблема зазвичай з тим, що щось не може припинитися через налаштування, а не з самим файрволом. Але пояснювати це щоразу у діалозі дуже складно. А відключати файрвол якось не хочеться, бо незабаром ми втратимо або віртуальну машину, або клієнта.

Якщо щось за прикладним програмним забезпеченням в базі знань стає дуже відвідуваним, то можна завести дистрибутив у маркетплейс, щоб з'явилася послуга «підняти сервер з уже встановленим ось цим». Власне, так сталося з Докером, і так сталося з сервером Майнкрафта. Знову ж таки одна кнопка «зробіть мені добре» в інтерфейсі зберігає до сотні тикетів на рік.

Аварійний режим

Після цих дій найбільш серйозних поломок, що вимагають ручної роботи, залишається з тим, що користувач з якихось причин втратив засіб віддаленого доступу до гостьової ОС у гіпервізорі. Найчастіший випадок - банально неправильне налаштування файрвола, другий за частотою - якісь баги, які не дають запуститися Win нормально і змушують перезавантажитись у Safe Mode. А в безпечному режимі за замовчуванням RDP недоступний.

Ми зробили для цього випадку аварійний режим. Взагалі зазвичай для доступу до VDS-машині потрібно мати якогось клієнта для віддаленої роботи. Найчастіше йдеться про консольний доступ, RDP, VNC або щось подібне. Недолік цих методів у цьому, що де вони працюють без ОС. Але ми на рівні гіпервізора можемо отримати і зображення на екрані, і передавати туди натискання на клавіатуру! Щоправда, це нехило так навантажує процесор (через фактичну трансляцію відео), але дозволяє отримати потрібний результат.

Тому ми дали доступ до аварійного режиму всім користувачам, але він обмежений тривалістю безперервного використання. На щастя, як показує практика, цього часу цілком достатньо, щоб перезавантажитися і щось виправити.

Результат – ще менше тикетів на підтримку. І там, де адмін може виправити в тикеті сам, підтримці не треба лізти руками та розбиратися.

проблеми, що залишилися

Дуже часто користувачі гадають, що підтримка їм щось упарює. Зробити з цим, на жаль, нічого не можна (ну чи ми не вигадали). Два найчастіші приклади — це ліміти за ресурсами та DDoS-захист.

На кожній віртуальній машині є ліміти навантаження на диск, пам'ять і допустимий трафік. Можливість встановлення лімітів прописана в оферті, самі ж ліміти підбираються так, щоб більшість користувачів спокійно працювала, навіть не знаючи про них. Але якщо ви раптом починаєте дуже сильно смикати канал і диск, то алгоритми автоматично попереджають користувача. З квітня минулого року ми прибрали автоблокування. Натомість — встановлення м'яких лімітів на змінний термін.

Раніше було так: попередження, потім, якщо користувач не прислухався, — автоматичне блокування. І в цей момент люди ображалися: «Та ви чого, це ваша система глючить, нічого не було!» — і далі можна спробувати розібратися в прикладному софті, або запропонувати підвищити тарифний план. Розбиратися в роботі прикладного програмного забезпечення у нас немає можливості, тому що це за межею підтримки. Хоча перші кілька випадків розбирали разом із користувачами. Особливо запам'ятався той, де у накрутника переглядів на Ютуб був вбудований троян, і в цього трояна була пам'ять. У результаті дійшли висновку, що це не гейзенбаги, а проблеми у користувачів, інакше б нас завалили аналогічними заявками. Але ще жодна людина не зізналася, що могла перевищити тарифи сама.

Аналогічна історія з DDoS: ми пишемо, що ви, шановний користувач, під атакою. Будь ласка, підключіть захист. А користувач: "Та це ви мене атакуєте самі!" Звичайно, ми саме одного користувача кладемо DDoS'ом, щоб розвести на 300 рублів. Вигідна справа. Так, я знаю, що багато великих хостингів із категорії дорожче включають цей захист у тариф, але ми так робити не можемо: економіка фастфуду диктує інші мінімальні ціни.

Не менш часто підтримкою незадоволені ті, чиї дані ми видалили. У тому сенсі, що легітимно видалили після закінчення сплаченого терміну. Якщо хтось не продовжує оренду VDS, то надходить кілька повідомлень із поясненням, що буде далі. У момент закінчення оплати віртуальна машина зупиняється, але її образ зберігається. Приходить ще одне повідомлення, а потім ще пара. Образ зберігається сім додаткових днів і потім видаляється назавжди. Так от є категорія людей, які цим дуже незадоволені. Починаючи від «адмін звільнився, на його пошту йшли повідомлення, відновлюйте» та закінчуючи звинуваченнями у шахрайстві та погрозами фізичної розправи. Причина — ті самі ціни для всіх інших користувачів. Якщо зберігатимемо місяць, то знадобиться більше сховищ. Це означатиме великі ціни для кожного конкретного клієнта. А економіка фастфуду… Ну ви зрозуміли. І в результаті на форумах отримуємо відгуки на кшталт «взяли гроші, видалили дані, шахраї».

Зазначу, що ми маємо лінійку преміум-тарифів. Там, звичайно, ситуація інша, оскільки ми беремо до уваги побажання клієнта і гнучко налаштовуємо і ліміт, і видалення при несплаті (відводимо його в мінус, аби не блокувати). Там це вже економічно доцільно, тому що трапляється справді всяке, і збереження постійного великого клієнта дорого коштує.

Іноді користувачі зловмисні. Кілька разів у нас в системі були збої з блокуванням сотень віртуальних машин через якісь явно нелегітимні дії клієнтів. Власне, саме через такі ситуації нам знадобилися власні мережеві драйвери, щоб вести моніторинг мережевої активності та бачити, що користувач не виконує атаки зі свого сервера. Моніторинг такого плану є важливим, щоб кордони сусідніх віртуалок не порушувалися буйними хлопцями.

Є ті, хто банально спамить, майне чи інакше порушує оферту. Потім стукає на підтримку і питає, що пішло не так, і чому машина заблокована. Якщо процес у тикеті на скріншоті називається «розсилач спаму.exe», то, мабуть, щось йде не так. Ще десь раз на два тижні до нас приходять скарги від компаній Sony або Lucasfilm (тепер — Disney), що хтось із нашої віртуалки з нашого діапазону IP-адрес роздає палений фільм. За таке відразу блок і повернення грошей, що залишилися на рахунку по оферті (нагадаю: квантування у нас посекундне, тобто залишок завжди точно буде). А щоби повернути гроші, за законодавством треба показати паспорт: це протидія відмиванню коштів. Пірати чомусь замість показу паспорта пишуть, що ми віджали гроші, забуваючи уточнити частину обставин.

А, так. Найкращий запит року у нас такий: «А чи можна кілька днів протестувати віртуальну машину за тарифом 30 рублів на місяць до покупки?».

Підсумок

Перша лінія сортує тикети та відповідає типовими діями. Найбільше незадоволення саме тут. Виправити це все одно не вийде, тому що основа виправлення — в автоматизації хостингу, тобто у величезному беклозі. Так, у нас більше, ніж у багатьох на ринку, але все одно недостатньо. Тому найкраще, що можна зробити, це налагодити моніторинг першої лінії. Моніторинг служби підтримки – виконання KPI першої лінії. В реальному часі видно прострочення по SLA: хто лаже, часто чому. Заявки завдяки таким алертам ніколи не губляться. Так, на тикет можуть відповісти шаблоном не по темі, але ми дізнаємося вже по зворотному зв'язку.

Якщо клієнт дуже просить, то фахівець другої лінії може зайти на сервер і зробити там те, що необхідно клієнту (умовою є підтвердження листом, у якому він повідомить дані для входу на сервер).

Ми робимо таке дуже рідко і таку роботу довіряємо тільки найкращим, тому що хочемо мати гарантії, що дані користувача не пошкодяться. Найкращі – це друга лінія підтримки.

Перша лінія має базу знань, куди можна відправляти складне.

Багатий на функції особистий кабінет плюс база знань — і ми змогли знизити кількість звернень до 1–1,5 на рік на клієнта в середньому.

Друга лінія зазвичай обробляє складні заявки, які потребують ручної праці. Що характерно: чим дорожчий тарифний план, тим менше таких заявок із розрахунку на віртуальну машину. Зазвичай тому, що у тих, хто може дозволити собі дорогий тариф, або є фахівці в штаті, або просто половина проблем не виникає через те, що зміни на все вистачає. Я досі згадую того героя, хто ставив не найстаріший Windows Server на конфігурацію з 256 Мбайт оперативної пам'яті.

Друга лінія має набір дистрибутивів та набір скриптів автоматизації. І те й інше можна оновлювати в міру потреби.

Друга лінія та персональні менеджери VIP-тарифів вміють додавати примітки до профілю клієнта. Якщо він Linux-адмін – так і запишемо. Це буде підказкою першої лінії: користувач точно знає, що це не постріл в ногу, а контрольоване руйнація.

Третя лінія править найдивніше. Наприклад, у нас був баг, що не можна було достукатися до однієї з функцій особистого кабінету у Файрфоксі. Користувач прямо шантажував: «Якщо не виправити протягом 12 годин, то я напишу на всіх хост-оглядах». Як виявилося, проблема була у кастомному адблоці. На стороні користувача, як це не дивно. Часто приходять складні помилки без деталей і повторити вже не можуть. Бувають детективи зі скріншотом: А чого ви його місяць виправляєте? - "Та ми ваш баг шукаємо весь цей час просто", "А, ну мені знову траплявся сьогодні, але повторити я знову не зміг" ...

Взагалі ви ніколи не знаєте, де виявиться скріншот діалогу з підтримкою, і якщо вже людина стукає на підтримку, то у неї проблема. Можна покращити ставлення. Принаймні спробувати.

Так, ми знаємо, що наша підтримка не ідеальна, але, як мені хочеться вірити, вона поєднує достатню швидкість за достатньої якості. І не підвищує ціни на тарифи тим, хто може обійтись без неї.

Робимо підтримку дешевше, намагаючись не розгубити якість

Джерело: habr.com

Додати коментар або відгук