Como MSP, la supervisión y las alertas son fundamentales para los servicios que prestas. Unos buenos consejos de control RMM te permitirían identificar proactivamente los problemas, resolverlos más rápidamente y ser más eficaz. Una mejor monitorización también puede desempeñar un papel clave a la hora de generar ingresos adicionales y mantener a tus clientes más satisfechos.
El reto consiste en saber qué hay que supervisar, qué requiere una alerta, qué problemas pueden resolverse automáticamente y cuáles necesitan un toque personal. Este conocimiento puede tardar años en desarrollarse, e incluso entonces los mejores equipos pueden seguir luchando para reducir la fatiga de las alertas y el ruido de los tickets en los dispositivos de los clientes.
Para ayudar a los que acaban de empezar a condensar ese tiempo de arranque y a limitar su enfoque, hemos elaborado esta lista de ideas para la supervisión MSP, sobre más de 25 condiciones que exigen monitorización. Estas recomendaciones se basan en las sugerencias de nuestros socios y en la experiencia de NinjaOne ayudando a los MSP a crear una monitorización eficaz y procesable.
Cómo utilizar las checklists presentadas a continuación
Para cada condición describimos lo que se monitorea, cómo configurar el monitor en NinjaOne y qué acciones deben tomarse si la condición se activa. Algunas de estas recomendaciones pueden ser más concretas, mientras que otras pueden requerir una pequeña cantidad de personalización para adaptarlas a tu caso de uso.
Nota: aunque hemos elaborado esta checklist con NinjaOne y nuestros clientes en mente, estas recomendaciones deben ser fácilmente adaptables a cualquier RMM.
Esta lista no es exhaustiva y puede no aplicarse a todas las situaciones o circunstancias.
Una vez que hayas comenzado a construir tu monitoreo en torno a nuestras recomendaciones, tendrás que desarrollar una estrategia de monitoreo más personalizada y robusta específica para tus clientes y sus necesidades. Finalizaremos este artículo con consejos adicionales para ayudar en este esfuerzo y hacer que la supervisión, las alertas y los tickets sean una ventaja competitiva para tu MSP.
Checklist de la salud del dispositivo
Monitor de eventos críticos continuos
- Condición: Eventos críticos
- Umbral: 80 eventos críticos en 5 minutos
- Acción: Emisión de un ticket e investigación
Identificar cuando un dispositivo se reinicia involuntariamente
- Condición: Evento de Windows
- Fuente del Evento: Microsoft-Windows-Kernel-Power
- ID del Evento: 41
- Nota: Esta condición es más adecuada para los servidores, ya que las estaciones de trabajo y los portátiles pueden crear este error a partir de la intervención de usuario.
- Acción: Emisión de ticket e investigación
Identificar los dispositivos que necesitan un reinicio
- Condición: Tiempo de actividad del sistema
- Recomendación del Umbral: 30 o 60 días
- Acción: Reinicia el dispositivo durante una venta apropiada. La reparación automatizada puede funcionar para las estaciones de trabajo.
Supervisión de terminales fuera de línea
- Condición: Dispositivo fuera de servicio
- Recomendación del Umbral:
- 10 minutos or menos (servidores)
- Más de 24 horas (estaciones de trabajo)
- Acción:
- Emisión de ticket e investigación
- Wake-on-LAN (Activación del LAN): sólo servidores
Recomendaciones para cambios de hardware
- Actividad: Sistema
- Nombre: Adaptador añadido / modificado, CPU añadida / eliminada, Unidad de Disco añadida / eliminada, Memoria añadida / eliminada
- Acción: Emisión de ticket e investigación
Checklist para la supervisión de la unidad
Supervisión de posibles fallos de disco
- Condición: Estado de Windows SMART degradado y/o
- Condición: Evento de Windows
- Fuente del Evento: Disco
- IDs del Evento: 7, 11, 29, 41, 51, 153
- Acción: Emisión de ticket e investigación
Identificar cuando el espacio del disco se acerca al límite de su capacidad
- Condición: Espacio libre en disco
- Umbral: El 20% y de nuevo al 10%
- Acción: Realiza una limpieza del disco y elimina los archivos temporales
Supervisar los posibles fallos del RAID
- Condición: Estado de salud del RAID
- Umbrales: Crítico y no crítico para todos los atributos
- Acción: Emisión de ticket e investigación
Supervisar el uso prolongado de los discos
- Condición: Uso del disco
- Umbrales: 90% o más para reducir el ruido, con 95% o más siendo común en periodos de 30 o 60 minutos
- Acción: Emisión de ticket e investigación
Supervisar la alta tasa de actividad del disco
- Condición: Tiempo de actividad del disco
- Umbrales: Más del 90% durante 15 minutos
- Acción: Emisión de ticket e investigación
Supervisar alto uso de la memoria
- Condición: Tiempo de actividad del disco
- Umbrales: Más del 90% durante 15 minutos
- Acción: Emisión de ticket e investigación
Checklist de control de la aplicación
Identificar si las aplicaciones requeridas existen en una terminal
- Condición: Software
- Uso:
- Aplicaciones de línea de negocio del cliente (Ejemplos: AutoCAD, SAP, Photoshop)
- Soluciones de productividad para clientes (Ejemplos: Zoom, Microsoft Teams, Dropbox, Slack, Office, Acrobat)
- Herramientas de asistencia al cliente (Ejemplos: TeamViewer, CCleaner, AutoElevate, BleachBit)
- Acción: Instalar automáticamente la aplicación si falta y es necesaria
Supervisar si las aplicaciones críticas se están ejecutando (especialmente para servidores)
- Condición: Proceso / Servicio
- Umbral: Caída al menos 3 minutos
- Ejemplos de procesos:
- Para estaciones de trabajo: TeamViewer, RDP, DLP
- Para un servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
- Para un servidor de Active Directory: Netlogon, dnscache, rpcss, etc
- Para un servidor SQL: mssqlserver, sqlbrowser, sqlwriter, etc
- Acción: Reinicia el servicio o proceso
Supervisar el uso de recursos de las aplicaciones que se sabe que causan problemas de rendimiento
- Condición: Recurso de proceso
- Umbral: Más del 90% durante al menos 5 minutos
- Ejemplos de procesos: Outlook, Chrome, and TeamViewer
- Acción:
- Emisión de ticket e investigación
- Desactivar al inicio
Supervisar si la aplicación se bloquea
- Condición: Evento de Windows
- Fuente: Caída de la aplicación
- ID del Evento: 1002
- Acción: Emisión de ticket e investigación
Checklist de control de la red
Supervisar el uso inesperado del ancho de banda
- Condición: Uso de la red
- Dirección: Fuera
- Umbral: Los umbrales serán determinados por el tipo de terminal y la capacidad de la red
- Cada servidor debería tener su propio umbral basado en su caso de uso
- Los umbrales de monitorización de la red de las estaciones de trabajo deben ser lo suficientemente altos como para que se activen sólo cuando la red de un cliente esté en riesgo
- Acción: Emisión de ticket e investigación
Asegúrate de que los dispositivos de red están en funcionamiento
- Condición: Dispositivo caída
- Duración: 3 Minutos
Supervisar qué puertos están abiertos
- Condición: Monitor de la nube
- Puertos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Supervisar la disponibilidad del sitio web del cliente
- Monitorizar: Ping
- Objetivo: Sitio web del cliente
- Condición: Fallo (5 veces)
- Acción: Emisión de ticket e investigación
Checklist de seguridad básica
Identificar si el Firewall de Windows ha sido desactivado
- Condición: Evento de Windows
- Fuente del Evento: Sistema
- ID del Evento: 5025
- Acción: Activar el Firewall de Windows
Identificar si el antivirus y las herramientas de seguridad están instalados y/o ejecutándose en una terminal
- Condición: Software
- Presencia: No existe
- Software (ejemplos): Huntress, Cylance, Threatlocker, Sophos
- Acción: Automatizar la instalación del software de seguridad que falta
- Condición: Proceso / Servicio
- Estado: Abajo
- Proceso (ejemplos): threatlockerservice.exe, EPUpdateService.exe
- Acción: Reiniciar el proceso
Supervisión de amenazas AV / EDR no integradas detectadas
- Condición: Evento de Windows
- Ejemplo (Sophos)
- Fuente del Evento: Sophos Anti-Virus
- IDs del Evento: 6, 16, 32, 42
Supervisión de los intentos fallidos de inicio de sesión de los usuarios
- Condición: Error de Windows
- Fuente del Evento: Microsoft-Windows-Security-Auditing
- IDs del Evento: 4625, 4740, 644 (cuentas locales); 4777 (acceso al dominio)
- Acción: Emisión de ticket e investigación
Supervisión de la creación, elevación o eliminación de usuarios en una terminal
- Condición: Error de Windows
- Fuente del Evento: Microsoft-Windows-Security-Auditing
- ID del Evento: 4720, 4732, 4729
- Acción: Emisión de ticket e investigación
Identificar si las unidades de una terminal están encriptadas o no
- Condición: Resultado del Script
- Script (Personalizado): Comprobar el estado de cifrado
- Acción: Emisión de ticket e investigación
Supervisión de los fallos en las copias de seguridad (NinjaOne Backup)
- Actividad: NinjaOne Backup
- Nombre: El trabajo de copia de seguridad ha fallado
Supervisión de los fallos de las copias de seguridad (otros proveedores de copias de seguridad)
- Condición: Evento de Windows
- Ejemplo de Fuente / IDs (Veeam):
- Fuente del Evento: Agente Veeam
- IDs del Evento: 190
- El Texto Contiene: Falló
- Ejemplo de fuente / IDs (Acronis):
- Fuente del Evento: Sistema de copia de seguridad en línea
- ID del Evento: 1
- El Texto Contiene: Falló
4 claves para optimizar
- Crea una plantilla de referencia para el control del estado de los dispositivos.
- Habla con los clientes sobre sus prioridades.
- ¿Qué servidores y estaciones de trabajo son importantes?
- ¿Cuáles son sus aplicaciones críticas de línea de negocio o de productividad?
- ¿Cuáles son sus puntos débiles en materia de TI?
- Supervisa tu sistema de PSA / Tickets para detectar problemas recurrentes.
- Ajusta las alertas para evitar el ruido de los tickets.
- Supervisa los registros de eventos de los clientes en busca de problemas recurrentes.
Mejores prácticas de emisión de tickets y alertas
- Alerta sólo sobre información procesable. Si no tienes una respuesta específica asociada a un monitor, no lo monitorices.
- Clasifica tus alertas para que vayan a diferentes tableros de servicio en tu PSA según el tipo o la prioridad.
- Organiza reuniones periódicas de mantenimiento de alertas para discutirlas:
-
- ¿Qué alertas causan más ruido? ¿Pueden eliminarse o reducirse su alcance?
- ¿Qué no se está supervisando o creando notificaciones, que debería?
- ¿Qué alertas comunes pueden remediarse automáticamente?
- ¿Hay algún proyecto próximo que pueda generar alertas?
- Despeja tus tickets y alertas cuando estén resueltos.
-
- En NinjaOne, muchas condiciones tienen “Reiniciar cuando deja de ser cierto”, o “Reiniciar cuando no sea cierto durante un periodo X” para ayudarte a resolver y limpiar las notificaciones que pueden resolverse por sí mismas.
Más ideas para la supervisión MSP
Descubre la excelente serie de Kelvin Tegelaar sobre monitoreo remoto usando PowerShell. Cubre cómo supervisar, todo desde el tráfico de red hasta el estado de Active Directory, los inicios de sesión fallidos de Office 365, los resultados de Shodan y mucho más. Lo mejor de todo es que comparte scripts de PowerShell que están diseñados para ser agnósticos de RMM. También puedes leer nuestro post sobre las diferencias entre PowerShell y CMD Prompt y cuándo usar cada uno.