28 recomendaciones para convertir la supervisión y alertas en la ventaja competitiva de tu MSP [Checklist]

Supervisión MSP

Como MSP, la supervisión y las alertas son fundamentales para los servicios que prestas. Unos buenos consejos de control RMM te permitirían identificar proactivamente los problemas, resolverlos más rápidamente y ser más eficaz. Una mejor monitorización también puede desempeñar un papel clave a la hora de generar ingresos adicionales y mantener a tus clientes más satisfechos.

El reto consiste en saber qué hay que supervisar, qué requiere una alerta, qué problemas pueden resolverse automáticamente y cuáles necesitan un toque personal. Este conocimiento puede tardar años en desarrollarse, e incluso entonces los mejores equipos pueden seguir luchando para reducir la fatiga de las alertas y el ruido de los tickets en los dispositivos de los clientes.

Para ayudar a los que acaban de empezar a condensar ese tiempo de arranque y a limitar su enfoque, hemos elaborado esta lista de ideas para la supervisión MSP, sobre más de 25 condiciones que exigen monitorización. Estas recomendaciones se basan en las sugerencias de nuestros socios y en la experiencia de NinjaOne ayudando a los MSP a crear una monitorización eficaz y procesable.

Cómo utilizar las checklists presentadas a continuación

Para cada condición describimos lo que se monitorea, cómo configurar el monitor en NinjaOne y qué acciones deben tomarse si la condición se activa. Algunas de estas recomendaciones pueden ser más concretas, mientras que otras pueden requerir una pequeña cantidad de personalización para adaptarlas a tu caso de uso.

Nota: aunque hemos elaborado esta checklist con NinjaOne y nuestros clientes en mente, estas recomendaciones deben ser fácilmente adaptables a cualquier RMM.

Esta lista no es exhaustiva y puede no aplicarse a todas las situaciones o circunstancias.

Una vez que hayas comenzado a construir tu monitoreo en torno a nuestras recomendaciones, tendrás que desarrollar una estrategia de monitoreo más personalizada y robusta específica para tus clientes y sus necesidades. Finalizaremos este artículo con consejos adicionales para ayudar en este esfuerzo y hacer que la supervisión, las alertas y los tickets sean una ventaja competitiva para tu MSP.

Checklist de la salud del dispositivo

Checklist de la salud del dispositivo

Monitor de eventos críticos continuos

  • Condición: Eventos críticos
  • Umbral: 80 eventos críticos en 5 minutos
  • Acción: Emisión de un ticket e investigación

Identificar cuando un dispositivo se reinicia involuntariamente

  • Condición: Evento de Windows
  • Fuente del Evento: Microsoft-Windows-Kernel-Power
  • ID del Evento: 41
  • Nota: Esta condición es más adecuada para los servidores, ya que las estaciones de trabajo y los portátiles pueden crear este error a partir de la intervención de usuario.
  • Acción: Emisión de ticket e investigación

Identificar los dispositivos que necesitan un reinicio

  • Condición: Tiempo de actividad del sistema
  • Recomendación del Umbral: 30 o 60 días
  • Acción: Reinicia el dispositivo durante una venta apropiada. La reparación automatizada puede funcionar para las estaciones de trabajo.

Supervisión de terminales fuera de línea

  • Condición: Dispositivo fuera de servicio
  • Recomendación del Umbral:
    • 10 minutos or menos (servidores)
    • Más de 24 horas (estaciones de trabajo)
  • Acción:
    • Emisión de ticket e investigación
    • Wake-on-LAN (Activación del LAN): sólo servidores

Recomendaciones para cambios de hardware

  • Actividad: Sistema
  • Nombre: Adaptador añadido / modificado, CPU añadida / eliminada, Unidad de Disco añadida / eliminada, Memoria añadida / eliminada
  • Acción: Emisión de ticket e investigación

 

Checklist para la supervisión de la unidad

Checklist para la supervisión de la unidad

Supervisión de posibles fallos de disco

  • Condición: Estado de Windows SMART degradado y/o
  • Condición: Evento de Windows
  • Fuente del Evento: Disco
  • IDs del Evento: 7, 11, 29, 41, 51, 153
  • Acción: Emisión de ticket e investigación

Identificar cuando el espacio del disco se acerca al límite de su capacidad

  • Condición: Espacio libre en disco
  • Umbral: El 20% y de nuevo al 10%
  • Acción: Realiza una limpieza del disco y elimina los archivos temporales

Supervisar los posibles fallos del RAID

  • Condición: Estado de salud del RAID
  • Umbrales: Crítico y no crítico para todos los atributos
  • Acción: Emisión de ticket e investigación

Supervisar el uso prolongado de los discos

  • Condición: Uso del disco
  • Umbrales: 90% o más para reducir el ruido, con 95% o más siendo común en periodos de 30 o 60 minutos
  • Acción: Emisión de ticket e investigación

Supervisar la alta tasa de actividad del disco

  • Condición: Tiempo de actividad del disco
  • Umbrales: Más del 90% durante 15 minutos
  • Acción: Emisión de ticket e investigación

Supervisar alto uso de la memoria

  • Condición: Tiempo de actividad del disco
  • Umbrales: Más del 90% durante 15 minutos
  • Acción: Emisión de ticket e investigación

ready to become an IT Ninja banner

Checklist de control de la aplicación

Checklist de control de la aplicación

Identificar si las aplicaciones requeridas existen en una terminal

  • Condición: Software
  • Uso:
    • Aplicaciones de línea de negocio del cliente (Ejemplos: AutoCAD, SAP, Photoshop)
    • Soluciones de productividad para clientes (Ejemplos: Zoom, Microsoft Teams, Dropbox, Slack, Office, Acrobat)
    • Herramientas de asistencia al cliente (Ejemplos: TeamViewer, CCleaner, AutoElevate, BleachBit)
  • Acción: Instalar automáticamente la aplicación si falta y es necesaria

Supervisar si las aplicaciones críticas se están ejecutando (especialmente para servidores)

  • Condición: Proceso / Servicio
  • Umbral: Caída al menos 3 minutos
  • Ejemplos de procesos:
    • Para estaciones de trabajo: TeamViewer, RDP, DLP
    • Para un servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
    • Para un servidor de Active Directory: Netlogon, dnscache, rpcss, etc
    • Para un servidor SQL: mssqlserver, sqlbrowser, sqlwriter, etc
  • Acción: Reinicia el servicio o proceso

Supervisar el uso de recursos de las aplicaciones que se sabe que causan problemas de rendimiento

  • Condición: Recurso de proceso
  • Umbral: Más del 90% durante al menos 5 minutos
  • Ejemplos de procesos: Outlook, Chrome, and TeamViewer
  • Acción:
    • Emisión de ticket e investigación
    • Desactivar al inicio

Supervisar si la aplicación se bloquea

  • Condición: Evento de Windows
  • Fuente: Caída de la aplicación
  • ID del Evento: 1002
  • Acción: Emisión de ticket e investigación

 

Checklist de control de la red

Checklist de control de la red

Supervisar el uso inesperado del ancho de banda

  • Condición: Uso de la red
  • Dirección: Fuera
  • Umbral: Los umbrales serán determinados por el tipo de terminal y la capacidad de la red
    • Cada servidor debería tener su propio umbral basado en su caso de uso
    • Los umbrales de monitorización de la red de las estaciones de trabajo deben ser lo suficientemente altos como para que se activen sólo cuando la red de un cliente esté en riesgo
  • Acción: Emisión de ticket e investigación

Asegúrate de que los dispositivos de red están en funcionamiento

  • Condición: Dispositivo caída
  • Duración: 3 Minutos

Supervisar qué puertos están abiertos

  • Condición: Monitor de la nube
  • Puertos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Supervisar la disponibilidad del sitio web del cliente

  • Monitorizar: Ping
  • Objetivo: Sitio web del cliente
  • Condición: Fallo (5 veces)
  • Acción: Emisión de ticket e investigación

 

Checklist de seguridad básica

Checklist de seguridad básica

Identificar si el Firewall de Windows ha sido desactivado

  • Condición: Evento de Windows
  • Fuente del Evento: Sistema
  • ID del Evento: 5025
  • Acción: Activar el Firewall de Windows

Identificar si el antivirus y las herramientas de seguridad están instalados y/o ejecutándose en una terminal

  • Condición: Software
  • Presencia: No existe
  • Software (ejemplos): Huntress, Cylance, Threatlocker, Sophos
  • Acción: Automatizar la instalación del software de seguridad que falta
  • Condición: Proceso / Servicio
  • Estado: Abajo
  • Proceso (ejemplos): threatlockerservice.exe, EPUpdateService.exe
  • Acción: Reiniciar el proceso

Supervisión de amenazas AV / EDR no integradas detectadas

  • Condición: Evento de Windows
  • Ejemplo (Sophos)
  • Fuente del Evento: Sophos Anti-Virus
  • IDs del Evento: 6, 16, 32, 42

Supervisión de los intentos fallidos de inicio de sesión de los usuarios

  • Condición: Error de Windows
  • Fuente del Evento: Microsoft-Windows-Security-Auditing
  • IDs del Evento: 4625, 4740, 644 (cuentas locales); 4777 (acceso al dominio)
  • Acción: Emisión de ticket e investigación

Supervisión de la creación, elevación o eliminación de usuarios en una terminal

  • Condición: Error de Windows
  • Fuente del Evento: Microsoft-Windows-Security-Auditing
  • ID del Evento: 4720, 4732, 4729
  • Acción: Emisión de ticket e investigación

Identificar si las unidades de una terminal están encriptadas o no

  • Condición: Resultado del Script
  • Script (Personalizado): Comprobar el estado de cifrado
  • Acción: Emisión de ticket e investigación

Supervisión de los fallos en las copias de seguridad (NinjaOne Backup)

  • Actividad: NinjaOne Backup
  • Nombre: El trabajo de copia de seguridad ha fallado

Supervisión de los fallos de las copias de seguridad (otros proveedores de copias de seguridad)

  • Condición: Evento de Windows
  • Ejemplo de Fuente / IDs (Veeam):
    • Fuente del Evento: Agente Veeam
    • IDs del Evento: 190
    • El Texto Contiene: Falló
  • Ejemplo de fuente / IDs (Acronis):
    • Fuente del Evento: Sistema de copia de seguridad en línea
    • ID del Evento: 1
    • El Texto Contiene: Falló

 

4 claves para optimizar

  1. Crea una plantilla de referencia para el control del estado de los dispositivos.
  2. Habla con los clientes sobre sus prioridades.
    1. ¿Qué servidores y estaciones de trabajo son importantes?
    2. ¿Cuáles son sus aplicaciones críticas de línea de negocio o de productividad?
    3. ¿Cuáles son sus puntos débiles en materia de TI?
  3. Supervisa tu sistema de PSA / Tickets para detectar problemas recurrentes.
    1. Ajusta las alertas para evitar el ruido de los tickets.
  4. Supervisa los registros de eventos de los clientes en busca de problemas recurrentes.

 

Mejores prácticas de emisión de tickets y alertas

  1. Alerta sólo sobre información procesable. Si no tienes una respuesta específica asociada a un monitor, no lo monitorices.
  2. Clasifica tus alertas para que vayan a diferentes tableros de servicio en tu PSA según el tipo o la prioridad.
  3. Organiza reuniones periódicas de mantenimiento de alertas para discutirlas:
    • ¿Qué alertas causan más ruido? ¿Pueden eliminarse o reducirse su alcance?
    • ¿Qué no se está supervisando o creando notificaciones, que debería?
    • ¿Qué alertas comunes pueden remediarse automáticamente?
    • ¿Hay algún proyecto próximo que pueda generar alertas?
  1. Despeja tus tickets y alertas cuando estén resueltos.
    • En NinjaOne, muchas condiciones tienen “Reiniciar cuando deja de ser cierto”, o “Reiniciar cuando no sea cierto durante un periodo X” para ayudarte a resolver y limpiar las notificaciones que pueden resolverse por sí mismas.

 

Más ideas para la supervisión MSP

Descubre la excelente serie de Kelvin Tegelaar sobre monitoreo remoto usando PowerShell. Cubre cómo supervisar, todo desde el tráfico de red hasta el estado de Active Directory, los inicios de sesión fallidos de Office 365, los resultados de Shodan y mucho más. Lo mejor de todo es que comparte scripts de PowerShell que están diseñados para ser agnósticos de RMM. También puedes leer nuestro post sobre las diferencias entre PowerShell y CMD Prompt y cuándo usar cada uno.

 

ready to become an IT Ninja banner

Próximos pasos

La creación de un equipo de TI próspero y eficaz requiere contar con una solución centralizada que se convierta en tu principal herramienta de prestación de servicios. NinjaOne permite a los equipos de TI supervisar, gestionar, proteger y dar soporte a todos tus dispositivos, estén donde estén, sin necesidad de complejas infraestructuras locales.

Obtén más información sobre NinjaOne Endpoint Management, echa un vistazo a un tour en vivocomienza tu prueba gratuita de la plataforma NinjaOne.

También te puede gustar

¿Listo para simplificar los aspectos más complejos de las TI?
×

¡Vean a NinjaOne en acción!

Al enviar este formulario, acepto la política de privacidad de NinjaOne.

Términos y condiciones de NinjaOne

Al hacer clic en el botón “Acepto” que aparece a continuación, estás aceptando los siguientes términos legales, así como nuestras Condiciones de uso:

  • Derechos de propiedad: NinjaOne posee y seguirá poseyendo todos los derechos, títulos e intereses sobre el script (incluidos los derechos de autor). NinjaOne concede al usuario una licencia limitada para utilizar el script de acuerdo con estos términos legales.
  • Limitación de uso: solo podrás utilizar el script para tus legítimos fines personales o comerciales internos, y no podrás compartirlo con terceros.
  • Prohibición de republicación: bajo ninguna circunstancia está permitido volver a publicar el script en ninguna biblioteca de scripts que pertenezca o esté bajo el control de cualquier otro proveedor de software.
  • Exclusión de garantía: el script se proporciona “tal cual” y “según disponibilidad”, sin garantía de ningún tipo. NinjaOne no promete ni garantiza que el script esté libre de defectos o que satisfaga las necesidades o expectativas específicas del usuario.
  • Asunción de riesgos: el uso que el usuario haga del script corre por su cuenta y riesgo. El usuario reconoce que existen ciertos riesgos inherentes al uso del script, y entiende y asume cada uno de esos riesgos.
  • Renuncia y exención: el usuario no hará responsable a NinjaOne de cualquier consecuencia adversa o no deseada que resulte del uso del script y renuncia a cualquier derecho o recurso legal o equitativo que pueda tener contra NinjaOne en relación con su uso del script.
  • CLUF: si el usuario es cliente de NinjaOne, su uso del script está sujeto al Contrato de Licencia para el Usuario Final (CLUF).