Last updated November 26, 2024

8 min read

MSP Monitoring Checkliste mit 28 Empfehlungen | NinjaOne

Peter Bretton
by Peter Bretton, Senior Director of Customer and Product Marketing

Für MSP’s und Systemhäuser sind Überwachung und Benachrichtigung von zentraler Bedeutung für die von Ihnen angebotenen Dienstleistungen. Gute Überwachungspraktiken ermöglichen es Ihnen, Probleme proaktiv zu erkennen, sie schneller zu lösen und wirkungsvoller zu arbeiten. Besseres Monitoring kann auch eine Schlüsselrolle bei der Generierung zusätzlicher Einnahmen spielen und die Kundenzufriedenheit steigern.

Die Herausforderung besteht darin zu wissen, was man überwachen muss, wann eine Benachrichtigung erforderlich ist, welche Aufgaben automatisiert gelöst werden können und wann persönliches Eingreifen erforderlich ist. Es kann Jahre dauern, bis man sich dieses Wissen erworben hat und selbst dann passiert es den besten Teams noch, dass sie im Hintergrundrauschen zu vieler Benachrichtigungen und Tickets den Blick aufs wesentliche verlieren.

Wir haben diese Liste mit Empfehlungen für mehr als 25 zu überwachende Bedingungen zusammengestellt, damit diejenigen, die noch am Anfang dieses Optimierungsprozesses stehen, schneller ans Ziel kommen und sich auf die wichtigen Aspekte fokussieren können. Diese Empfehlungen basieren auf Vorschlägen unserer Partner und auf den Erfahrungen, die NinjaOne durch die Unterstützung seiner Partner im Aufbau effektiver und praktikabler Monitoring-Prozesse gesammelt hat.

So verwenden Sie die nachfolgenden Checklisten

Für jede Bedingung beschreiben wir, was überwacht wird, wie Sie das NinjaOne-Monitoring einrichten können und welche Maßnahmen erfolgen sollten, sobald die Bedingung ausgelöst wurde. Einige Vorschläge für die Überwachung sind konkreter Natur, während andere einen geringen Anpassungsaufwand erfordern, damit sie Ihren Bedürfnissen gerecht werden.

Hinweis: Die Monitoring-Empfehlungen sind problemlos auch auf andere RMM’s übertragbar.

Sobald Sie Ihr Monitoring mit Hilfe dieser Empfehlungen gestartet haben, sollten Sie eine individuellere Überwachungsstrategie entwickeln, die auf Ihre Kunden und deren Bedürfnissebasiert. Am Ende dieses Artikels finden Sie zusätzliche Ratschläge, mit denen Sie Ihre Überwachung, Benachrichtigungen und Ticketausstellung zu einem echten Wettbewerbsvorteil für Ihr MSP-Unternehmen ausbauen können.

Checkliste zur Überwachung des Gerätezustands

Überwachung auf gehäufte kritische Ereignisse

Bedingung: Kritische Ereignisse
Schwellenwert: 80 kritische Ereignisse innerhalb von 5 Minuten
Maßnahme: Ticket und Fehlersuche

Feststellung nicht beabsichtigter Neustarts von Geräten

Bedingung: Windows-Ereignis
Ereignis-Quelle: Microsoft-Windows-Kernel-Power
Ereignis-ID: 41
Anmerkung: Die Bedingung eignet sich besser für Server, da dieses Ereignis auf Workstations und Laptops durch Handlungen der Benutzer ausgelöst werden kann.
Maßnahme: Ticket- und Fehlersuche

Geräte identifizieren, die einen Neustart benötigen

Bedingung: System-Aktivitätszeit
Empfohlener Schwellenwert: 30 oder 60 Tage
Maßnahme: Starten Sie das Gerät während eines geeigneten Zeitfensters neu. Für Workstations kann eine Automatisierung eingerichtet werden.

Überwachung auf Offline-Endpunkte

Bedingung: Gerät außer Betrieb
Empfohlener Schwellenwert:
- 10 Minuten oder weniger (Server)
- 24+ Stunden (Workstations)
Maßnahmen:
- Ticket und Fehlersuche
- Wake-on-lan (nur bei Servern)

Überwachung bei Änderungen der Hardware

Aktivität: System
Schwellenwert: Adapter hinzugefügt/geändert, CPU hinzugefügt/geändert, Laufwerk hinzugefügt/entfernt, Memory hinzugefügt/entfernt
Maßnahme: Ticket und Nachforschungen

Checkliste zur Überwachung von Laufwerken

Überwachung potenzieller Festplattenfehler

Bedingung: Windows S.M.A.R.T. Status verschlechtert
und/oder
Bedingung: Windows-Ereignis
Ereignis-Quelle: Festplatte
Ereignis-ID’s: 7, 11, 29, 41, 51, 153
Maßnahmen: Ticket und Nachforschungen

Überwachung der Kapazitätsgrenze des Festplattenspeichers

Bedingung: Freier Speicherplatz auf Festplatten
Schwellenwert: jeweils bei 20% und 10%
Maßnahmen: Festplattenbereinigung und Löschen temporärer Dateien

Überwachung potenzieller RAID-Fehler

Bedingung: RAID-Integritätsstatus
Schwellenwerte: kritisch und unkritisch bei allen Attributen
Maßnahmen: Ticket and Nachforschungen

Überwachung auf anhaltende Datenträgerverwendung

Bedingung: Datenträgerverwendung
Schwellenwerte: 90% oder höher (um unnötige Benachrichtigungen auszuschließen), über 95% sind auch in Ordnung für einen Zeitraum von weniger als 30 oder 60 Minuten
Maßnahmen: Ticket and Nachforschungen

Überwachung auf erhöhte Festplattenaktivität

Bedingung: Aktive Datenträgerzeit
Schwellenwerte: Über 90% für 15 Minuten
Maßnahmen: Ticket und Nachforschungen

Überwachung auf erhöhte Speicherauslastung

Bedingung: Aktive Datenträgerzeit
Schwellenwerte: Über 90% innerhalb von 15 Minuten
Action: Ticket und Nachforschungen

Checkliste zur Überwachung von Anwendungen

Sind alle relevanten Anwendungen auf einem Endpunkt vorhanden?

Bedingung: Software
Verwendung für:
- Kundenspezifische Geschäftsanwendungen (Beispiele: AutoCAD, SAP, Photoshop)
- Kundenspezifische Produktivitätsanwendungen (Beispiele: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Werkzeuge für den Kundensupport (Beispiele: TeamViewer, CCleaner, AutoElevate, BleachBit)
Maßnahmen: Automatisierte Installation von erforderlichen Anwendungen, falls sie nicht vorhanden sind

Überwachen, ob kritische Anwendungen ausgeführt werden (insbesondere für Server)

Bedingung: Prozess / Service
Schwellenwert: Ausfallzeit mindestens 3 Minuten
Beispielhafte Prozesse:
- Für Workstations: TeamViewer, RDP, DLP
- Für Exchange Server: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
- Für einen Active Directory Server: Netlogon, dnscache, rpcss, etc
- For einen SQL Server: mssqlserver, sqlbrowser, sqlwriter, etc
Maßnahmen: Service oder Prozess neustarten

Überwachung der Ressourcennutzung für Anwendungen, die bekanntermaßen Performance-Probleme verursachen

Bedingung: Prozessressource
Schwellenwert: über 90% für mindestens 5 Minuten
Beispielhafte Prozesse: Outlook, Chrome und TeamViewer
Maßnahmen:
- Ticket and Nachforschungen
- Ausführen bei Systemstart sperren

Überwachung auf Abstürze von Anwendungen

Bedingung: Windows-Ereignis
Ereignis-Quelle: Anwendung reagiert nicht
Ereignis-ID: 1002
Maßnahme: Ticket und Nachforschungen

Netzwerk Monitoring Checkliste

Überwachung auf unerwartete Bandbreitenauslastung

Bedingung: Netzwerkauslastung
Richtung: Out
Schwellenwerte: Die Schwellenwerte richten sich nach der Art des Endpunkts und der Netzwerkkapazität
- Für jeden Server sollten angepasste Schwellenwerte festgelegt werden
- Die Schwellenwerte der Netzwerk-Überwachung für Workstations sollten hoch genug liegen, so dass Benachrichtigungen erst ausgelöst werden, wenn ein Kundennetzwerk gefährdet ist
Maßnahmen: Ticket and Nachforschungen

Sicherstellen, dass Netzwerkgeräte verfügbar sind

Bedingung: Gerät reagiert nicht
Dauer: 3 Minuten

Überwachung offener Ports

Bedingung: Cloud-Monitor
Ports: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Überwachung der Verfügbarkeit von Kunden-Internetseiten

Monitor: Ping
Ziel: Kunden-Internetauftritt
Bedingung: Verbindungsfehler (5 mal)
Maßnahmen: Ticket und Fehlersuche

Checkliste für die grundlegende Sicherheitsüberwachung

Benachrichtigung sobald die Windows-Firewall deaktiviert wird

Bedingung: Windows-Ereignis
Ereignis-Quelle: System
Ereignis-ID: 5025
Maßnahmen: Aktivierung der Windows-Firewall

Feststellen, ob Antivirus- und Sicherheitswerkzeuge auf einem Endpunkt installiert sind und/oder ausgeführt werden

Bedingung: Software
Anwesenheit: existiert nicht
Software (Beispiele): Huntress, Cylance, Threatlocker, Sophos
Maßnahme: Automatisieren Sie die Installation der fehlenden Sicherheits- und Antivirus-Software
Bedingung: Prozess / Service
Zustand: läuft nicht
Prozess (Beispiele): threatlockerservice.exe, EPUpdateService.exe
Maßnahme: Prozess neustarten/li>

Überwachung nicht nativ integrierter AV / durch EDR erkannter Gefährdungen

Bedingung: Windows-Ereignis
Beispiel: (Sophos)
Ereignis-Quelle: Sophos Anti-Virus
Ereignis-ID’s: 6, 16, 32, 42

Überwachung auf gescheiterte Anmeldeversuche von Benutzern

Bedingung: Windows-Fehler
Ereignis-Quelle: Microsoft-Windows-Security-Auditing
Event-ID’s: 4625, 4740, 644 (Lokale Accounts); 4777 (Domain Login)
Maßnahmen: Ticket und Nachforschungen

Überwachung von hinzugefügten, gelöschten oder höher gestuften Benutzerkonten auf Endpunkten

Bedingung: Windows-Fehler
Ereignisquelle: Microsoft-Windows-Security-Auditing
Ereignis ID: 4720, 4732, 4729
Maßnahme: Ticket und Nachforschungen

Überwachen ob Laufwerke auf Endpunkten verschlüsselt oder unverschlüsselt sind

Bedingung: Skriptausgabe
Skript (benutzerdefiniert): Überprüfung des Verschlüsselungs-Status
Maßnahme: Ticket und Nachforschungen

Überwachen von Backup-Versagen (Ninja Data Protection)

Aktivität: Ninja Data Protection
Name: Backup-Job failed

Überwachen von Backup-Versagen (andere Backup-Anbieter)

Bedingung: Windows-Ereignis
Beispiel-Quelle / ID‘s (Veeam):
- Ereignis-Quelle: Veeam Agent
- Ereignis-ID: 190
- Text enthält: [failed]
Beispiel-Quelle / ID‘s (Acronis):
- Ereignis-Quelle: Online Backup System
- Ereignis-ID: 1
- Text enthält: [failed]

4 Profi-Tipps für ein noch besseres Monitoring

Erstellen Sie sich eine Generalvorlage zur Überwachung des Gerätezustands.
Sprechen Sie mit Ihren Kunden über deren Prioritäten.
1. Welche Server und Workstations sind die wichtigsten?
2. Welches sind Ihre wichtigsten Geschäfts- und Produktivitätsanwendungen?
3. Wo liegen ihre IT-Schmerzpunkte/Problemfelder?
Überwachen Sie Ihr PSA / Ticketing-System auf wiederkehrende Probleme.
1. Passen Sie Benachrichtigungen dementsprechend an, um unnötige Mitteilungen zu vermeiden.
Überwachen Sie die Event-Logs Ihrer Kunden auf wiederkehrende Probleme

Ticketing & Benachrichtigungen: Hilfreiche Beispiele

Überwachen Sie nur auf Informationen, die wirklich verwertbar sind. Falls Sie für eine Überwachung keine bestimmte Reaktion formulieren können, sollten Sie die Überwachung einstellen.
Kategorisieren Sie Ihre Benachrichtigungen, so dass diese je nach Sachverhalt und Priorität an unterschiedliche Service-Boards in Ihrem PSA weitergeleitet werden.
Setzen Sie Meetings zum Thema Benachrichtigungs-Management an und besprechen Sie gemeinsam folgende Fragen:

- Gibt es Benachrichtigungen, die überhand nehmen? Könnte man diese vielleicht reduzieren oder auf relevante Fälle eingrenzen?
- Was wird bisher nicht überwacht, sollte aber definitiv zu Benachrichtigungen an Ihr Team führen?
- Welche häufig auftretenden Benachrichtigungen können mittels Automatisierung bearbeitet werden?
- Gibt es Projekte, die in naher Zukunft zu Fehlern und Benachrichtigungen führen könnten?

Tickets und Benachrichtigungen nach dem Bearbeiten ad acta legen

- In NinjaOne gibt es für viele Bedingungen die Option: “Zurücksetzen, sobald nicht mehr erfüllt” oder “Zurücksetzen, sobald nicht mehr erfüllt für ”. Benachrichtigungen, deren Grundlage bereits behoben wurde sind somit vom Tisch.

Sie suchen weitere hilfreiche MSP Überwachungsanleitungen?

Kelvin Tegelaar bietet dazu eine exzellente, englischsprachige Serie zum Thema Remote Monitoring using PowerShell. Er erläutert, wie man alles Mögliche überwacht, vom Netzwerkverkehr über den Zustand der Active Directory bis hin zu fehlgeschlagenen Office 365-Anmeldungen, Shodan-Ergebnissen und mehr. Das Beste ist, dass er auf RMM’s ausgelegte PowerShell-Skripte mit Ihnen teilt.

Daher ist er auch oft Bestandteil unseres englischsprachigen MSP-Bento Newsletters, in dem wir Ihnen wöchentlich viele Werkzeuge und Ressourcen empfehlen. Melden Sie sich hier an und Sie erhalten direkt die letzte Ausgabe und die beliebtesten Tools und Ressourcen, die wir für Sie zusammengestellt haben.

[/av_textblock]