Які робіцца падтрымку танней, імкнучыся не разгубіць якасць

Які робіцца падтрымку танней, імкнучыся не разгубіць якасцьАварыйны рэжым (таксама згадваецца як IPKVM), які дазваляе падлучацца да VPS без RDP прама з узроўня гіпервізара, эканоміць 15-20 хвілін у тыдзень.

Першае і галоўнае - не злаваць людзей. Ва ўсім свеце падтрымка падзелена на лініі, і супрацоўнік першай павінен паспрабаваць тыповыя спосабы рашэння. Калі задача выбіваецца за іх межы - перадаць другой лініі. Дык вось, сярод адміністратараў VDS дастаткова часта трапляюцца людзі, якія ўмеюць думаць. У адрозненне ад шматлікіх іншых падтрымак. Ну, прынамсі, істотна часцей. І яны добра структуруюць тыкет, адразу апісваючы ўсё, што трэба. Калі ў першай лініі «вока замыліцца» і яны выпадкова ў адказ на такое папросяць уключыць і выключыць - гэта фіяска.

Задача стаіць вельмі простая: зрабіць падтрымку нашага VDS-хостынгу адэкватнай пры мінімуме выдаткаў. Таму што мы фастфуд свету хостынг-правайдэраў: ніякага асаблівага "аблізвання", нізкія цэны, нармальная якасць. Раней ужо быў аповяд пра тое, што са з'яўленнем инстаграм-няшак, якія спрабуюць аўтаматызаваць вядзенне акаўнта і ўладальнікаў малога бізнэсу з выдаленай бухгалтэрыяй і іншых не занадта прапампаваных у тэхналогіях людзей, зносіны «як адмін з адмінам» пракатваць перастала. Прыйшлося мяняць мову зносін.

Зараз раскажу пра працэсы крыху больш — і пра немінучыя вушакі з імі.

Не раз'юшваць людзей № 1

Любая падтрымка - гэта канвеернае вытворчасць. Прыходзіць заяўка, супрацоўнік першай лініі адразу спрабуе распазнаць тыповую сітуацыю, якая тысячу разоў ужо здаралася і тысячу разоў яшчэ здарыцца. Шанец 90%, што заяўка тыповая, і адказаць на яе можна націскам літаральна пары кнопак, каб падставіўся шаблон. У шаблон звычайна трэба ўпісаць пару слоў - і гатова. Або зайсці ў інтэрфейс кіравання і націснуць тамака пару кнопак. У больш складаных выпадках (пераносы з зоны ў зону, напрыклад) трэба выканаць дзеянні па алгарытме.

Тое, што больш за ўсё раз'юшвае людзей незалежна ад іншых якасцяў падтрымкі, - гэта тыповая рэакцыя на нетыповую заяўку. Прыходзіць тыкет, дзе ўсё падрабязна апісана, ёсць куча неабходных дадзеных на тры пытанні наперад, кліент прадбачыць дыялог ... І па першых словах супрацоўнік падтрымкі на аўтапілоце набірае акорд для падстаноўкі шаблону "паспрабуйце перазагрузіць, павінна дапамагчы".

Менавіта гэта прама выкрывае мозг людзям, і менавіта пасля такіх сітуацый застаецца больш за ўсё негатыўных водгукаў і гнеўных каментароў. Зразумела, што мы так памыляліся, адтуль і ведаем статыстыку. Мы ўвогуле па-рознаму памыляліся, але такія выпадкі — гэта заўсёды проста дзіка. У тым ліку для нас саміх. Мы б, канешне, хацелі, каб такога не здаралася зусім. Але гэта не вельмі магчыма на практыцы: раз у некалькі тыдняў стомлены ад аднастайнасці супрацоўнік не-не ды і націсне вясёлыя кнопкі.

Не раз'юшваць людзей № 2

Другое, што з роўным поспехам выкрывае мозг, - гэта калі на тыкет ніхто не адказвае дастаткова доўга. У Еўропе такія паводзіны падтрымкі нармальныя: тры дні да прыняцця інцыдэнту ў працу — больш за норму. Нават калі вам вельмі тэрмінова і нешта гарыць - ні сацсетак, ні тэлефона, ні месэнджэра, толькі пошта і чакайце сваёй чаргі. У Расіі такое значна менш распаўсюджана, але ўсё роўна некаторыя цікеты "забываюцца". Яшчэ ў самым пачатку працы паставілі SLA на першую рэакцыю 15 хвілін. І гэта пры 24/7 сумленным. Зразумелая справа, калі VDS-хостынг становіцца буйным, гэта з'яўляецца. Але ў сумнеўных правайдэраў паслуг такога няма. А мы на старце былі якраз сумнеўнымі і толькі потым сталі больш-менш буйнымі. Добра, больш-менш сярэднім.

Першая лінія - аператары, якім далі скрыпты і навучылі рэагаваць на тыповыя сітуацыі. Яны хутка-хутка сартуюць праблемы і імкнуцца за 15 хвілін ці адказаць тыповым дзеяннем, ці паведаміць аб тым, што тыкет у працы, і перадаць у другую.

Другая лінія - ужо адміністратары хостынгу, яны ўмеюць амаль усё рабіць рукамі. Там жа – кіраўнік падтрымкі, які ўмее рабіць усё і яшчэ няшмат. Трэцяя лінія – ужо распрацоўшчыкі, да іх трапляюць цікеты накшталт "папраўце вось гэта ў інтэрфейсе" ці "няправільна ўлічваецца нейкі параметр там-то".

Змяншаць колькасць заявак

Па зразумелых прычынах, калі вы хочаце прадастаўляць падтрымку танна, то трэба не павялічваць першую лінію, каб людзі са скрыптамі спраўляліся хутчэй, а павялічваць аўтаматызацыю. Каб замест людзей са скрыптамі былі сапраўдныя скрыпты. Таму адна з першых рэчаў, якую мы зрабілі, - гэта аўтаматызавалі працэсы ўзняцця віртуальнай машыны, маштабавання па рэсурсах (у тым ліку па дыску уверх і ўніз, але не частаце працэсара) і іншым падобным рэчам. Чым больш карыстач можа з інтэрфейсу, тым прасцей жыць першай лініі, і тым менш яна можа быць. Калі карыстач звяртаецца з чымсьці, што ёсць у асабістым кабінеце, - трэба зрабіць і распавесці, як гэта можна выканаць самастойна.

Калі табе не патрэбна падтрымка, значыць, яна спраўляецца добра.

Другая асаблівасць, якая вельмі беражэ час, - гэта доўгае запаўненне базы ведаў. Калі ў карыстача - праблема, якая не ўваходзіць у спіс падтрымоўваных дзеянняў (часцей за ўсё гэта пытанні ўзроўня "як паставіць сервер Майнкрафта" або "Дзе ў Win Server наладзіць VPS"), то пішацца артыкул у базу ведаў. Такі ж падрабязны артыкул пішацца на ўсе дзіўныя запыты. Напрыклад, калі карыстач просіць падтрымку выдаліць убудаваны файрвол Windows Server, то мы адпраўляем чытаць пра тое, што будзе, калі яго рэальна адключыць, і як пракінуць дазволы толькі для абранага софту. Таму што праблема звычайна з тым, што нешта не можа прыконнекціцца з-за налад, а не з самім файрвалам. Але тлумачыць гэта штораз у дыялогу вельмі складана. А адключаць файрвол неяк не хочацца, таму што даволі хутка мы страцім або віртуальную машыну, або кліента.

Калі нешта па прыкладным ПЗ у базе ведаў становіцца вельмі наведвальным, то можна завесці дыстрыбутыў у маркетплейс, каб з'явілася паслуга "падняць сервер з ужо ўсталяваным вось гэтым". Уласна, так стала з Докерам, і так стала з серверам Майнкрафта. Ізноў жа адна кнопка "зрабіце мне добра" у інтэрфейсе беражэ да сотні тыкетаў у год.

Аварыйны рэжым

Пасля гэтых дзеянняў больш за ўсё сур'ёзных паломак, якія патрабуюць ручной працы, застаецца з тым, што карыстач па нейкіх чынніках страціў сродак выдаленага доступу да гасцёўні АС у гіпервізоры. Самы часты выпадак - банальна няслушная настройка файрвола, другі па частаце - нейкія багі, якія не даюць запусціцца Win нармальна і прымушаюць перазагрузіцца ў Safe Mode. А ў бяспечным рэжыме RDP па змаўчанні недаступны.

Мы зрабілі на гэты выпадак аварыйны рэжым. Наогул-то звычайна для доступу да VDS-машыне трэба мець нейкага кліента для выдаленай працы. Часцей за ўсё гаворка ідзе пра кансольны доступ, RDP, VNC ці нешта падобнае. Недахоп гэтых метадаў у тым, што яны не працуюць без АС. Але мы вось на ўзроўні гіпервізара можам атрымаць і малюнак на экране, і перадаваць туды націскі на клавіятуру! Праўда, гэтае няхіла так нагружае працэсар (з-за фактычнай трансляцыі відэа), але дазваляе атрымаць патрэбны вынік.

Таму мы далечы доступ да аварыйнага рэжыму ўсім карыстачам, але ён абмежаваны па працягласці бесперапыннага выкарыстання. На шчасце, як паказвае практыка, гэтага часу дастаткова, каб перазагрузіцца і нешта паправіць.

Вынік - яшчэ менш тыкетаў у падтрымку. І там, дзе адмін можа выправіць у цікеце сам, падтрымцы не трэба лезці рукамі і разбірацца.

Астатнія праблемы

Вельмі часта карыстачы думаюць, што падтрымка ім нешта ўпарвае. Зрабіць з гэтым, нажаль, нічога нельга (ну ці мы не прыдумалі). Два самых частых прыкладу - гэта ліміты па рэсурсах і DDoS-абарона.

На кожнай віртуальнай машыне ёсць ліміты па нагрузцы на дыск, памяць і дапушчальны трафік. Магчымасць усталёўкі лімітаў прапісаная ў аферты, самі ж ліміты падбіраюцца так, каб большая частка карыстачоў спакойна працавала, нават не ведаючы пра іх. Але калі вы раптам пачынаеце вельмі моцна церабіць канал і дыск, то алгарытмы аўтаматычна папярэджваюць карыстальніка. З красавіка мінулага года мы прыбралі аўтаблакіроўкі. Замест гэтага - усталёўка мяккіх лімітаў на пераменны тэрмін.

Раней было так: папярэджанне, потым, калі карыстач не пачуў, аўтаматычнае ж блакіроўка. І ў гэты момант людзі крыўдзіліся: "Ды вы чаго, гэта сістэма ваша глючыць, нічога не было!" - І далей можна альбо паспрабаваць разабрацца ў прыкладным софце, альбо прапанаваць павысіць тарыфны план. Разбірацца ў працы прыкладнога ПЗ у нас няма магчымасці, таму што гэта за гранню падтрымкі. Хаця першыя некалькі выпадкаў разбіралі разам з карыстальнікамі. Асабліва запомніўся той, дзе ў накрутчыка праглядаў на Ютуб быў убудаваны траян, і ў гэтага траяна цякла памяць. У выніку прыйшлі да высновы, што гэта не гейзенбагі, а праблемы ў карыстальнікаў, інакш нас завалілі б аналагічнымі заяўкамі. Але яшчэ ніводзін чалавек не прызнаўся, што мог перавысіць тарыфы сам.

Аналагічная гісторыя - з DDoS: мы пішам, што вы, паважаны карыстальнік, пад атакай. Падлучыце абарону, калі ласка. А карыстач: «Ды гэта вы мяне атакуеце самі!» Вядома, мы менавіта аднаго карыстальніка кладзем DDoS'ам, каб развесці на 300 рублёў. Выгодная ж справа. Так, я ведаю, што многія буйныя хостынгі з катэгорыі даражэй уключаюць гэтую абарону ў тарыф, але мы так рабіць не можам: эканоміка фастфуду дыктуе іншыя мінімальныя кошты.

Не менш часта падтрымкай незадаволены тыя, чые дадзеныя мы выдалілі. У тым сэнсе, што легітымна выдалілі пасля заканчэння аплачанага тэрміна. Калі хтосьці не падаўжае арэнду VDS, то прыходзіць некалькі апавяшчэнняў з тлумачэннем, што будзе далей. У момант заканчэння аплаты віртуальная машына спыняецца, але яе выява захоўваецца. Прыходзіць яшчэ адно апавяшчэнне, а затым - яшчэ пара. Выява захоўваецца сем дадатковых дзён і толькі потым выдаляецца назаўжды. Дык вось, ёсць катэгорыя людзей, якія гэтым вельмі незадаволены. Пачынаючы ад «адмін звольніўся, на ягоную пошту ішлі апавяшчэнні, аднаўляйце» і заканчваючы абвінавачваннямі ў махлярстве і пагрозамі фізічнай расправы. Прычына - усё тыя ж цэны для ўсіх астатніх карыстальнікаў. Калі будзем захоўваць месяц, то спатрэбіцца больш сховішчаў. Гэта будзе азначаць вялікія кошты для кожнага канкрэтнага кліента. А эканоміка фастфуду... Ну, вы зразумелі. І ў выніку на форумах атрымліваем водгукі ў духу «ўзялі грошы, выдалілі дадзеныя, ашуканцы».

Адзначу, што ў нас ёсць лінейка прэміум-тарыфаў. Тамака, вядома, сітуацыя іншая, паколькі мы прымаем да ўвагі пажаданні кліента і гнутка наладжваем і ліміт, і выдаленне пры неаплаце (адводзім яго ў мінус, абы не блёчыць). Там гэта ўжо эканамічна мэтазгодна, таму што здараецца сапраўды ўсякае, і захаванне сталага буйнага кліента дорага каштуе.

Часам карыстачы зламысныя. Некалькі разоў у нас у сістэме былі збоі з блакіроўкай сотняў віртуальных машын з-за нейкіх відавочна нелегітымных дзеянняў кліентаў. Уласна, менавіта з-за такіх сітуацый нам спатрэбіліся ўласныя сеткавыя драйвера, каб весці маніторынг сеткавай актыўнасці і бачыць, што карыстач не выконвае напад са свайго сервера. Маніторынг такога плана важны, каб межы суседніх віртуалак не парушаліся буйнымі рабятамі.

Ёсць тыя, хто банальна спаміць, майне ці інакш парушае аферту. Потым стукае ў падтрымку і пытаецца, што пайшло не так і чаму машына заблакаваная. Калі працэс у цікеце на скрыншоце завецца "рассылальнік спама.exe", то, мусіць, нешта ідзе не так. Яшчэ недзе раз на два тыдні да нас прыходзяць скаргі ад кампаній Sony ці Lucasfilm (цяпер — Disney), што нехта з нашай віртуалкі з нашага дыяпазону IP-адрасоў раздае палёны фільм. За такое адразу блок і вяртанне пакінутых на рахунку грошай па аферце (нагадаю: квантаванне ў нас пасекунднае, гэта значыць астатак заўсёды сапраўды будзе). А каб вярнуць грошы, па заканадаўстве трэба паказаць пашпарт: гэта супрацьдзеянне адмыванню сродкаў. Піраты чамусьці замест паказу пашпарта пішуць, што мы адціснулі ў іх грошы, забываючыся ўдакладніць частку абставінаў.

А, так. Лепшы запыт года ў нас такі: "А можна некалькі дзён пратэставаць віртуальную машыну па тарыфе 30 рублёў у месяц да пакупкі?".

Вынік

Першая лінія сартуе цікеты і адказвае тыповымі дзеяннямі. Больш за ўсё незадаволенасці менавіта тут. Паправіць гэта ўсё роўна не выйдзе, таму што аснова выпраўлення - у аўтаматызацыі хостынгу, гэта значыць у велізарным бэклог. Так, у нас больш, чым у многіх на рынку, але ўсё роўна недастаткова. Таму лепшае, што можна зрабіць, - гэта наладзіць маніторынг першай лініі. Маніторынг службы падтрымкі - выкананне KPI першай лініі. У рэальным часе бачныя пратэрміноўкі па SLA: хто лажае, часта - чаму. Заяўкі дзякуючы такім алертам ніколі не губляюцца. Так, на тыкет могуць адказаць шаблонам не па тэме, але гэта мы даведваемся ўжо па зваротнай сувязі.

Калі кліент вельмі просіць, то спецыяліст другой лініі можа зайсці на сервер і зрабіць там тое, што неабходна кліенту (умовай з'яўляецца пацверджанне лістом, у якім ён паведаміць дадзеныя для ўваходу на сервер).

Мы робім такое вельмі рэдка і такую ​​працу давяраем толькі лепшым, таму што жадаем мець гарантыі, што карыстацкія дадзеныя не пашкодзяць. Лепшыя - гэта другая лінія падтрымкі.

Першая лінія мае базу ведаў, куды можна дасылаць глядзець складанае.

Багаты на функцыі асабісты кабінет плюс база ведаў - і вось мы змаглі знізіць колькасць зваротаў да 1-1,5 у год на кліента ў сярэднім.

Другая лінія звычайна апрацоўвае складаныя заяўкі, якія патрабуюць ручной працы. Што характэрна: чым даражэйшы тарыфны план, тым менш такіх заявак з разліку на віртуальную машыну. Звычайна таму, што ў тых, хто можа дазволіць сабе дарагі тарыф, альбо ёсць спяцы ў штаце, альбо проста палова праблем не ўстае з-за таго, што канфігурацыі на ўсё хапае. Я да гэтага часу ўспамінаю таго героя, хто ставіў не самы стары Windows Server на канфігурацыю з 256 Мбайт аператыўнай памяці.

Другая лінія мае набор дыстрыбутываў і набор скрыптоў аўтаматызацыі. І тое і іншае можна абнаўляць па меры патрэбы.

Другая лінія і персанальныя менеджэры VIP-тарыфаў умеюць дадаваць нататкі ў профіль кліента. Калі ён Linux-адмін - так і запішам. Гэта будзе падказкай першай лініі: карыстач сапраўды ведае, што гэта будзе не стрэл у нагу, а кантраляванае разбурэнне.

Трэцяя лінія кіруе самае дзіўнае. Напрыклад, у нас быў баг, што нельга было дагрукацца да адной з функцый асабістага кабінета ў Файрфоксе. Карыстальнік прама шантажаваў: "Калі не выправіце на працягу 12 гадзін, то я напішу на ўсіх хост-аглядах". Як аказалася, праблема была ў кастамным адблоку. На баку карыстальніка, як гэта ні дзіўна. Часта прыходзяць складаныя памылкі без дэталяў, і паўтарыць ужо не могуць. Бываюць дэтэктывы са скрыншотам: "А чаго вы яго месяц выпраўляеце?" - "Ды мы ваш баг шукаем увесь гэты час проста", "А, ну мне зноў трапляўся сёння, але паўтарыць я зноў не змог"…

Наогул вы ніколі не ведаеце, дзе апынецца скрыншот дыялогу з падтрымкай, і калі ўжо чалавек стукае ў падтрымку, то ў яго праблема. Можна палепшыць стаўленне. Прынамсі, паспрабаваць.

Так, мы ведаем, што наша падтрымка не ідэальная, але, як мне жадаецца верыць, яна спалучае дастатковую хуткасць пры дастатковай якасці. І не падвышае кошты на тарыфы тым, хто можа абыйсціся без яе.

Які робіцца падтрымку танней, імкнучыся не разгубіць якасць

Крыніца: habr.com

Дадаць каментар