Il monitoraggio degli endpoint e gli avvisi sono una parte centrale della gestione IT. Le best practice di monitoraggio e avvisi ti consentono di identificare in modo proattivo i problemi, risolverli più rapidamente e risparmiare a te e ai tuoi utenti tempo e frustrazione in futuro.
La sfida consiste nel comprendere cosa bisogna monitorare, cosa richiede un avviso, quali problemi possono essere risolti automaticamente e quali necessitano un intervento manuale. Lo sviluppo di queste conoscenze può richiedere anni, e anche i team IT migliori possono avere difficoltà a ridurre la frequenza degli avvisi e l’eccessiva quantità di ticket nelle loro reti e nei loro dispositivi.
Per ridurre i tempi di avviamento e per restringere il campo d’azione, abbiamo messo insieme un elenco di idee sulle condizioni da monitorare, insieme ai trigger e alle azioni suggerite per l’automazione. Queste raccomandazioni si basano sui suggerimenti dei nostri partner e sull’esperienza di NinjaOne nell’aiutare i team IT a creare un monitoraggio efficace e fattibile.
Cosa monitorare e notificare: Come usare le checklist di seguito
Per ogni condizione viene descritto cosa viene monitorato, come configurare il monitoraggio in NinjaOne e quali azioni eseguire se la condizione è attivata. Alcuni suggerimenti per il monitoraggio sono concreti, mentre altri potrebbero richiedere un livello minimo di personalizzazione per essere adattati al tuo caso d’uso.
Nota: Questa checklist è stata creata pensando a NinjaOne e ai propri clienti, ma queste idee per il monitoraggio dovrebbero essere facilmente applicabili a qualsiasi soluzione RMM o endpoint management.
Inoltre, questo elenco ovviamente non è esaustivo e potrebbe non adattarsi a qualsiasi situazione o circostanza.
Dopo aver iniziato a configurare il tuo sistema di monitoraggio in base a questi suggerimenti, vorrai sviluppare una strategia di monitoraggio più complessa e personalizzata secondo le tue esigenze. Concluderemo questo post con ulteriori suggerimenti utili per realizzare tutto questo e per rendere il monitoraggio, gli avvisi e la creazione dei ticket più semplice ed efficace.
Monitoraggio dell’integrità dei dispositivi
Monitoraggio continuo degli eventi critici
- Condizione: eventi critici
- Soglia: 80 eventi critici in 5 minuti
- Azione: ticket e analisi
Identificare quando un dispositivo viene riavviato involontariamente
- Condizione: evento Windows
- Origine dell’evento: Microsoft-Windows-Kernel-Power
- ID evento: 41
- Nota: Questa condizione è più indicata per i server poiché workstation e portatili possono dare questo errore in seguito all’intervento dell’utente.
- Azione: ticket e analisi
Identificare i dispositivi che richiedono un riavvio
- Condizione: tempo di attività del sistema
- Soglia suggerita: 30 o 60 giorni
- Azione: Riavvia il dispositivo in un intervallo appropriato. La correzione automatizzata potrebbe funzionare per le workstation.
Monitoraggio degli endpoint offline
- Condizione: dispositivo non disponibile
- Soglia suggerita:
- 10 minuti o meno (server)
- più di 24 ore (workstation)
- Azione:
- ticket e analisi
- Riattivazione della LAN (solo server)
Monitoraggio delle modifiche dell’hardware
- Attività: sistema
- Nome: Scheda aggiunta/modificata, CPU aggiunta/rimossa, Unità disco aggiunta/rimossa, Memoria aggiunta/rimossa
- Azione: ticket e analisi
Monitora l’unità
Monitora i potenziali errori del disco
- Condizione: Stato SMART di Windows degradato
e/o - Condizione: evento Windows
- Origine dell’evento: disco
- ID evento: 7, 11, 29, 41, 51, 153
- Azione: ticket e analisi
Individua quando lo spazio su disco sta finendo
- Condizione: Spazio disponibile su disco
- Soglia: 20% e ancora al 10%
- Azione: pulizia del disco ed eliminazione dei file temporanei
Monitora i potenziali errori RAID
- Condizione: Stato di integrità RAID
- Soglie: critico e non critico per tutti gli attributi
- Azione: ticket e analisi
Monitora l’utilizzo prolungato del disco
- Condizione: utilizzo del disco
- Soglie: 90% o superiore per ridurre il rumore, con più del 95% comune in periodi di 30 o 60 minuti
- Azione: ticket e analisi
Monitora l’elevato tasso di attività del disco
- Condizione: tempo di attività del disco
- Soglie: più del 90% per 15 minuti
- Azione: ticket e analisi
Monitoraggio di un utilizzo elevato della memoria
- Condizione: tempo di attività del disco
- Soglie: più del 90% per 15 minuti
- Azione: ticket e analisi
Monitora le applicazioni
Identifica se esistono le applicazioni richieste su un endpoint
- Condizione: Software
- Utilizzo:
- applicazioni line-of-business del cliente (esempi: AutoCAD, SAP, Photoshop)
- Soluzioni per la produttività del cliente (esempi: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Strumenti di supporto del cliente (esempi: TeamViewer, CCleaner, AutoElevate, BleachBit)
- Azione: installazione automatica dell’applicazione se è necessaria e manca
Monitora se le applicazioni critiche sono in esecuzione (soprattutto per i server)
- Condizione: processo/servizio
- Soglia: non disponibile per almeno 3 minuti
- Processi di esempio:
- Per le workstation: TeamViewer, RDP, DLP
- Per un server Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, ecc
- Per un server Active Directory: Netlogon, dnscache, rpcss, ecc
- Per un server SQL: mssqlserver, sqlbrowser, sqlwriter, ecc.
- Azione: riavvio del servizio o del processo
Monitora l’utilizzo delle risorse per le applicazioni che possono causare problemi relativi alle prestazioni
- Condizione: risorsa di processo
- Soglia: più del 90% per almeno 5 minuti
- Processi di esempio: Outlook, Chrome e TeamViewer
- Azione:
- ticket e analisi
- Disattivazione all’avvio
Monitora gli arresti anomali delle applicazioni
- Condizione: evento Windows
- Source: blocco dell’applicazione
- ID evento: 1002
- Azione: ticket e analisi
Monitora la rete
Monitora l’utilizzo imprevisto della larghezza di banda
- Condizione: utilizzo del Network
- Direzione: out
- Soglia: le soglie saranno determinate dal tipo di endpoint e dalla capacità di rete
- Ogni server deve avere una propria soglia in base al suo caso d’uso specifico
- Le soglie di monitoraggio della rete per le workstation devono essere abbastanza elevate da attivarsi solo quando la rete di un cliente è a rischio
- Azione: ticket e analisi
Garantisci il corretto funzionamento dei dispositivi di rete
- Condizione: dispositivo non disponibile
- Durata: 3 minuti
Monitora le porte aperte
- Condizione: Monitoraggio cloud
- Porte: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Monitora la disponibilità del sito Web del cliente
- Monitora: ping
- Destinazione: sito Web del cliente
- Condizione: errore (5 volte)
- Azione: ticket e analisi
Monitoraggio della sicurezza di base
Identifica se il firewall di Windows è stato disattivato
- Condizione: evento Windows
- Origine dell’evento: sistema
- ID evento: 5025
- Azione: attivazione di Windows Firewall
Identifica se l’antivirus e gli strumenti di sicurezza sono installati e/o in esecuzione su un endpoint
- Condizione: Software
- Presenza: non esiste
- Software (esempi): Huntress, Cylance, Threatlocker, Sophos
- Azione: Automatizza l’installazione del software di sicurezza mancante
dal vivo e - Condizione: processo/servizio
- Stato: Inattivo
- Processo (esempi): threatlockerservice.exe, EPUpdateService.exe
- Azione: riavvio del processo
Controlla le minacce rilevate da AV/EDR non integrati
- Condizione: evento Windows
- Esempio: (Sophos)
- Origine dell’evento: Sophos Anti-Virus
- ID evento: 6, 16, 32, 42
Monitora i tentativi di accesso dell’utente non riusciti
- Condizione: errore di Windows
- Origine dell’evento: Microsoft-Windows-Sicurezza-Controllo
- ID evento: 4625, 4740, 644 (account locali); 4777 (accesso al dominio)
- Azione: ticket e analisi
Monitora la creazione, la modifica o la rimozione di utenti su un endpoint
- Condizione: errore di Windows
- Origine dell’evento: Microsoft-Windows-Sicurezza-Controllo
- ID evento: 4720, 4732, 4729
- Azione: Crea un ticket e indaga
Monitoraggio per identificare se le unità in un endpoint sono crittografate/decrittografate
- Condizione: risultato dello script
- Script (personalizzato): verifica dello stato della crittografia
- Azione: ticket e analisi
Monitoraggio degli errori di backup (Ninja Data Protection)
- Attività: Ninja Data Protection
- Nome: processo di backup non riuscito
Monitora gli errori di backup (altri fornitori di soluzioni per il backup)
- Condizione: evento Windows
- Origine/ID dell’esempio (Veeam):
- Origine dell’evento: Agente Veeam
- ID evento: 190
- Contenuto del testo: non riuscito
- Origine/ID dell’esempio (Acronis):
- Origine dell’evento: Sistema di backup online
- ID evento: 1
- Contenuto del testo: non riuscito
4 punti chiave per ottimizzare il monitoraggio
- Crea un modello di monitoraggio dell’integrità dei dispositivi di base.
- Parla con i clienti delle loro priorità.
- Quali server e workstation sono importanti?
- Quali sono le loro applicazioni per la produttività o line-of-business cruciali?
- Quali criticità hanno riscontrato nell’ambito dell’IT?
- Monitora il tuo sistema di creazione dei ticket/PSA per individuare eventuali problemi ricorrenti.
- Configura gli avvisi in modo da evitare una quantità eccessiva di ticket.
- Monitora i log eventi dei clienti per individuare eventuali problemi ricorrenti.
Best practice per la creazione di ticket e avvisi
- Attiva avvisi solo su informazioni utilizzabili. Se non hai una risposta specifica per un monitoraggio, non eseguire il monitoraggio.
- Categorizza gli avvisi in modo da indirizzarli verso schede di servizio diverse nel PSA in base al tipo o alla priorità.
- Organizza riunioni frequenti sulla gestione degli avvisi per discutere di quanto segue:
-
- Quali avvisi causano gran parte del rumore? È possibile rimuoverli o limitarli?
- Cosa non viene sottoposto a monitoraggio o non sta creando le notifiche previste?
- Quali avvisi comuni è possibile risolvere automaticamente?
- Ci sono dei progetti imminenti che potrebbero generare avvisi?
- Elimina i ticket e gli avvisi una volta risolti.
-
- In Ninjaone molte condizioni presentano la dicitura “Reimposta quando non più vera” o “Reimposta quando non vera per un periodo x” per aiutarti a risolvere ed eliminare le notifiche che potrebbero risolversi automaticamente.
Ulteriori idee sul monitoraggio per MSP
Non perdere la straordinaria serie di Kelvin Tegelaar sul monitoraggio da remoto tramite PowerShell. Descrive come monitorare qualsiasi cosa, come il traffico di rete, l’integrità di Active Directory, i tentativi di accesso non riusciti a Office 365, i risultati di Shodan e molto altro. Ma soprattutto, condivide gli script di PowerShell progettati per essere indipendenti da RMM. Puoi leggere anche il nostro post del blog sulle differenze tra PowerShell e il prompt dei comandi e su quando usarli.
Pubblichiamo regolarmente i suoi post del blog con un’ampia serie di risorse e strumenti aggiuntivi nella nostra newsletter settimanale MSP Bento. Iscriviti ora per ricevere la versione più recente e un elenco speciale delle risorse e degli strumenti più popolari che abbiamo condiviso.