Abaratamos el soporte, intentando que no pierda calidad

Abaratamos el soporte, intentando que no pierda calidadEl modo alternativo (también conocido como IPKVM), que le permite conectarse a un VPS sin RDP directamente desde la capa del hipervisor, ahorra entre 15 y 20 minutos por semana.

Lo primero y más importante es no cabrear a la gente. En todo el mundo, el soporte se divide en líneas y el empleado es el primero en probar las soluciones típicas. Si la tarea va más allá de sus límites, transfiérala a la segunda línea. Entonces, entre los administradores de VDS a menudo hay personas que saben pensar. A diferencia de muchos otros soportes. Bueno, al menos con mucha más frecuencia. Y estructuran bien el ticket, describiendo inmediatamente todo lo que se necesita. Si la primera línea se vuelve "borrosa" y accidentalmente te piden que la enciendas y la apagues en respuesta a esto, es un fiasco.

La tarea es muy sencilla: dar el soporte adecuado a nuestro hosting VDS con un coste mínimo. Porque somos la comida rápida del mundo de los proveedores de hosting: sin “lamer” especiales, precios bajos, calidad normal. Ранее Ya había una historia sobre el hecho de que con la llegada de los bastardos de Instagram que intentaban automatizar la gestión de cuentas y los propietarios de pequeñas empresas con contabilidad remota y otras personas que no estaban muy avanzadas en tecnología, la comunicación "como administrador a administrador" dejó de funcionar. Tuve que cambiar el idioma de comunicación.

Ahora te contaré un poco más sobre los procesos y sobre los problemas inevitables que conllevan.

No cabrees a la gente #1

Cualquier soporte es una producción en cadena. Llega una solicitud, el empleado de primera línea inmediatamente intenta reconocer una situación típica que ya ha sucedido mil veces y volverá a suceder mil veces. Existe un 90% de posibilidades de que la aplicación sea típica, y puedes responder presionando literalmente un par de botones para que se sustituya una plantilla. Normalmente sólo necesitas escribir un par de palabras en la plantilla y listo. O vaya a la interfaz de administración y presione un par de botones allí. En casos más complejos (transferencias de una zona a otra, por ejemplo), es necesario seguir el algoritmo.

Lo que más irrita a la gente, independientemente de otras cualidades del apoyo, es la reacción típica ante una petición atípica. Llega un ticket donde se describe todo en detalle, hay un montón de datos necesarios para tres preguntas por delante, el cliente anticipa un diálogo... Y según las primeras palabras, el empleado de soporte en piloto automático teclea un acorde para sustituir la plantilla. "Intenta reiniciar, debería ayudar".

Esto es lo que realmente abre la mente de las personas, y es después de situaciones así cuando quedan las críticas más negativas y los comentarios enojados. Está claro que estábamos tan equivocados, de ahí conocemos las estadísticas. En general, cometimos errores de diferentes maneras, pero estos casos siempre son simplemente descabellados. Incluso para nosotros mismos. Por supuesto, nos gustaría que esto no sucediera en absoluto. Pero esto no es muy posible en la práctica: una vez cada pocas semanas, un empleado cansado de la monotonía pulsa los botones divertidos.

No cabrees a la gente #2

La segunda cosa que igualmente abre la mente es cuando nadie responde a un ticket durante el tiempo suficiente. En Europa, este comportamiento de apoyo es normal: tres días antes de que se acepte un incidente para trabajar es más de lo normal. Incluso si eres muy urgente y algo está ardiendo, no hay redes sociales, ni teléfono, ni mensajería, solo envía un correo electrónico y espera tu turno. En Rusia esto es mucho menos común, pero algunos billetes todavía se “olvidan”. Al comienzo del trabajo, establecimos un SLA para la primera respuesta de 15 minutos. Y esto es honesto 24 horas al día, 7 días a la semana. Está claro que cuando el hosting VDS se hace grande, esto aparece. Pero los proveedores de servicios dudosos no tienen esto. Y al principio teníamos dudas y sólo después nos hicimos más o menos grandes. Bueno, más o menos normal.

La primera línea son los operadores a quienes se les dieron guiones y se les enseñó a reaccionar ante situaciones típicas. Resuelven rápidamente los problemas e intentan en 15 minutos responder con una acción típica o informar que el ticket está en curso y transferirlo al segundo.

La segunda línea son los administradores de hosting, saben hacer casi todo a mano. También hay un responsable de soporte que puede hacer de todo y un poco más. La tercera línea son los desarrolladores, reciben tickets como "arreglar esto en la interfaz" o "tal o cual parámetro se tiene en cuenta incorrectamente".

Reducir el número de aplicaciones.

Por razones obvias, si desea brindar soporte a bajo costo, no debe aumentar la primera línea para que las personas puedan manejar los scripts más rápido, sino aumentar la automatización. Para que en lugar de personas con guiones haya guiones reales. Por lo tanto, una de las primeras cosas que hicimos fue automatizar los procesos de creación de una máquina virtual, escalado por recursos (incluso por disco hacia arriba y hacia abajo, pero no por frecuencia del procesador) y otras cosas similares. Cuanto más pueda hacer el usuario desde la interfaz, más fácil será vivir con la primera línea y más pequeña podrá ser. Cuando un usuario accede a algo que está en su cuenta personal, necesita hacerlo y decirle cómo puede hacerlo él mismo.

Si no necesitas apoyo, entonces ella está haciendo un buen trabajo.

La segunda característica, que ahorra mucho tiempo, es el largo tiempo que lleva completar la base de conocimientos. Si el usuario tiene un problema que no está incluido en la lista de acciones admitidas (la mayoría de las veces son preguntas en el nivel "cómo instalar un servidor de Minecraft" o "Dónde configurar un VPS en Win Server"), entonces El artículo está escrito en la base de conocimientos. El mismo artículo detallado está escrito para todas las solicitudes extrañas. Por ejemplo, si un usuario solicita asistencia para eliminar el firewall integrado de Windows Server, lo enviamos para que lea qué sucederá si realmente se deshabilita y cómo cambiar los permisos solo para el software seleccionado. Porque el problema suele estar en el hecho de que algo no puede conectarse debido a la configuración y no en el firewall en sí. Pero es muy difícil explicar esto siempre en el diálogo. Pero de alguna manera no quiero desactivar el firewall, porque muy pronto perderemos la máquina virtual o el cliente.

Si algo sobre el software de aplicación en la base de conocimientos se vuelve muy popular, entonces puede agregar la distribución al mercado para que aparezca el servicio "configurar un servidor con esto ya instalado". En realidad, esto es lo que pasó con Docker y esto es lo que pasó con el servidor de Minecraft. Una vez más, un botón de “hazme el bien” en la interfaz ahorra hasta cientos de tickets al año.

Modo de emergencia

Después de estos pasos, las averías más graves que requieren trabajo manual quedan con el hecho de que el usuario, por alguna razón, perdió los medios de acceso remoto al sistema operativo invitado en el hipervisor. El caso más común es una configuración de firewall simplemente incorrecta, el segundo más común son algunos errores que impiden que Win se inicie normalmente y lo obligan a reiniciar en modo seguro. Y en modo seguro, RDP no está disponible de forma predeterminada.

Hemos creado un modo de emergencia para este caso. De hecho, normalmente para acceder a una máquina VDS es necesario disponer de algún tipo de cliente para trabajo remoto. La mayoría de las veces hablamos de acceso a consola, RDP, VNC o algo similar. La desventaja de estos métodos es que no funcionan sin un sistema operativo. ¡Pero a nivel de hipervisor podemos recibir la imagen en la pantalla y transmitir las pulsaciones del teclado allí! Es cierto que esto carga bastante el procesador (debido a la transmisión de video en sí), pero le permite obtener el resultado deseado.

Por lo tanto, hemos dado acceso al modo de emergencia a todos los usuarios, pero está limitado en cuanto a la duración del uso continuo. Afortunadamente, como muestra la práctica, este tiempo es suficiente para reiniciar y arreglar algo.

El resultado es incluso menos tickets de soporte. Y mientras que el administrador puede arreglar el ticket él mismo, el soporte no tiene que entrar y resolverlo.

Problemas restantes

Muy a menudo, los usuarios piensan que el soporte les está presionando. Desafortunadamente, no se puede hacer nada al respecto (o no se nos ha ocurrido nada). Los dos ejemplos más comunes son los límites de recursos y la protección DDoS.

Cada máquina virtual tiene límites de carga de disco, memoria y tráfico permitido. La capacidad de establecer límites se especifica en la oferta, pero los límites en sí se seleccionan para que la mayoría de los usuarios puedan trabajar tranquilamente sin siquiera saberlos. Pero si de repente empiezas a jugar demasiado con el canal y el disco, los algoritmos advierten automáticamente al usuario. Desde abril del año pasado hemos eliminado las cerraduras automáticas. En lugar de ello, se establecen límites suaves durante un período variable.

Anteriormente era así: una advertencia, luego, si el usuario no hacía caso, un bloqueo automático. Y en ese momento la gente se ofendió: “¡De qué estás hablando? ¡Es tu sistema el que tiene errores, no pasó nada!” - y luego puede intentar comprender el software de la aplicación u ofrecer aumentar el plan de tarifas. No tenemos la oportunidad de comprender el funcionamiento del software de la aplicación porque esto está más allá del alcance del soporte. Aunque los primeros casos se resolvieron junto con los usuarios. Recuerdo especialmente aquel en el que el tramposo de vistas de YouTube tenía un troyano incorporado, y este troyano estaba perdiendo memoria. Al final llegamos a la conclusión de que no se trataba de Heisenbugs, sino de problemas con los usuarios, de lo contrario nos habrían inundado con solicitudes similares. Pero ni una sola persona ha admitido todavía que él mismo podría superar las tarifas.

Una historia similar ocurre con DDoS: escribimos que usted, querido usuario, está bajo ataque. Conecte la protección, por favor. Y el usuario: “¡Sí, tú mismo me estás atacando!” Por supuesto, aplicamos ataques DDoS a un solo usuario para estafarle 300 rublos. Es un negocio rentable. Sí, sé que muchos grandes sitios de hosting de la categoría más cara incluyen esta protección en la tarifa, pero no podemos hacerlo: la economía de la comida rápida dicta otros precios mínimos.

Con la misma frecuencia, aquellos cuyos datos hemos eliminado no están satisfechos con el soporte. En el sentido de que fue legítimamente eliminado una vez finalizado el período pagado. Si alguien no renueva su alquiler de VDS, se envían varias notificaciones explicando lo que sucederá a continuación. Cuando se completa el pago, la máquina virtual se detiene, pero su imagen se guarda. Llega otra notificación y luego un par más. La imagen se almacena durante siete días adicionales antes de eliminarse permanentemente. Entonces, hay una categoría de personas que están muy descontentas con esto. Comenzando con “el administrador renunció, se enviaron notificaciones a su correo electrónico, reintegro” y terminando con acusaciones de fraude y amenazas de daño físico. El motivo son los mismos precios para todos los demás usuarios. Si lo guardamos durante un mes, necesitaremos más almacenamiento. Esto significará precios más altos para cada cliente individual. Y la economía de la comida rápida... Bueno, ya entiendes la idea. Y como resultado, en los foros recibimos críticas con el espíritu de "tomaron dinero, borraron datos, estafadores".

Me gustaría señalar que tenemos una línea de tarifas premium. Allí, por supuesto, la situación es diferente, ya que tenemos en cuenta los deseos del cliente y configuramos de manera flexible tanto el límite como la eliminación en caso de impago (lo ponemos en el signo menos, solo para no bloquearlo). Allí ya es económicamente viable, porque realmente puede pasar cualquier cosa y retener a un gran cliente permanente es caro.

A veces los usuarios son maliciosos. Varias veces nuestro sistema experimentó fallas con cientos de máquinas virtuales bloqueadas debido a acciones claramente ilegítimas de los clientes. En realidad, fue precisamente por este tipo de situaciones que necesitábamos nuestros propios controladores de red para monitorear la actividad de la red y ver que el usuario no estaba ejecutando un ataque desde su servidor. El seguimiento de dicho plan es importante para que los tipos alborotadores no violen los límites de las máquinas virtuales vecinas.

Hay quienes simplemente envían spam, minan o violan la oferta de otra manera. Luego llama para pedir apoyo y pregunta qué salió mal y por qué el coche está bloqueado. Si el proceso en el ticket de la captura de pantalla se llama "spam sender.exe", entonces probablemente algo esté saliendo mal. Aproximadamente una vez cada dos semanas recibimos quejas de Sony o Lucasfilm (ahora Disney) de que alguien de nuestra máquina virtual de nuestro rango de direcciones IP está distribuyendo una película quemada. Para ello, inmediatamente bloquearás y devolverás el dinero restante en la cuenta según la oferta (permíteme recordarte: nuestra cuantificación es por segundo, es decir, siempre habrá saldo seguro). Y para recuperar el dinero, según la ley, es necesario mostrar el pasaporte: esto es lucha contra el blanqueo de dinero. Por alguna razón, en lugar de mostrar el pasaporte, los piratas escriben que les sacamos dinero, olvidándonos de aclarar algunas de las circunstancias.

Oh sí. Nuestra mejor petición del año es: "¿Puedo probar una máquina virtual durante unos días a razón de 30 rublos al mes antes de comprarla?"

Total

La primera línea clasifica los tickets y responde con acciones típicas. Aquí es donde radica la mayor parte del descontento. Todavía no será posible solucionar este problema, porque la base para solucionarlo está en la automatización del hosting, es decir, en un enorme trabajo pendiente. Sí, tenemos más que muchos en el mercado, pero aún no son suficientes. Por tanto, lo mejor que se puede hacer es establecer un seguimiento de primera línea. Monitoreo de Mesa de Ayuda - Implementación de KPI de primera línea. Los retrasos en los SLA son visibles en tiempo real: quién se equivoca, a menudo y por qué. Gracias a este tipo de alertas, las solicitudes nunca se pierden. Sí, el ticket puede responderse con una plantilla que no está relacionada con el tema, pero esto ya lo descubrimos por los comentarios.

Si el cliente realmente pregunta, entonces el especialista de segunda línea puede ir al servidor y hacer allí lo que el cliente necesita (la condición es una confirmación por carta en la que proporcionará la información de inicio de sesión al servidor).

Hacemos esto muy raramente y confiamos ese trabajo sólo a los mejores, porque queremos tener garantías de que los datos del usuario no serán dañados. Los mejores son la segunda línea de apoyo.

La primera línea tiene una base de conocimientos a la que puede enviar para buscar cosas complejas.

Una cuenta personal rica en funciones y una base de conocimientos, y ahora pudimos reducir el número de solicitudes a 1-1,5 por año en promedio por cliente.

La segunda línea suele procesar aplicaciones complejas que requieren mano de obra. Lo que es típico: cuanto más caro es el plan de tarifas, menos solicitudes de este tipo por máquina virtual. Generalmente porque aquellos que pueden permitirse una tarifa cara tienen especialistas en su plantilla o simplemente la mitad de los problemas no surgen porque hay suficiente configuración para todo. Todavía recuerdo al héroe que instaló el Windows Server no más antiguo en una configuración con 256 MB de RAM.

La segunda línea tiene un conjunto de kits de distribución y un conjunto de scripts de automatización. Ambos se pueden actualizar según sea necesario.

La segunda línea y los administradores personales de tarifas VIP pueden agregar notas al perfil del cliente. Si es administrador de Linux, lo anotaremos. Esta será la pista de la primera línea: el usuario sabe con seguridad que no será un disparo en la pierna, sino una destrucción controlada.

La tercera línea gobierna lo más extraño. Por ejemplo, tuvimos un error que imposibilitaba el acceso a una de las funciones de su cuenta personal en Firefox. El usuario chantajeó directamente: "Si no lo soluciona en 12 horas, escribiré en todas las reseñas de los anfitriones". Al final resultó que, el problema estaba en el bloque de anuncios personalizado. Del lado del usuario, por extraño que parezca. A menudo se producen errores complejos sin detalles y que ya no se pueden repetir. Hay detectives con una captura de pantalla: "¿Por qué lo estás arreglando durante un mes?" - “Sí, hemos estado buscando tu error todo este tiempo”, “Oh, bueno, hoy me lo volví a encontrar, pero no pude volver a repetirlo”…

En general, nunca se sabe dónde terminará una captura de pantalla de un diálogo con soporte, y si una persona llama para pedir ayuda, entonces tiene un problema. Puedes mejorar tu actitud. Al menos trata.

Sí, sabemos que nuestro soporte no es perfecto, pero me gustaría creer que combina suficiente velocidad con suficiente calidad. Y no aumenta los precios de las tarifas para quienes pueden prescindir de ellas.

Abaratamos el soporte, intentando que no pierda calidad

Fuente: habr.com

Añadir un comentario