Unsaubere Daten sind alle Daten, die ungenaue, unvollständige, inkonsistente oder veraltete Informationen enthalten. Diese Fehlinformationen sind in der Regel unbedeutend und durch menschliches Versagen verursacht. Denken Sie beispielsweise an den Unterschied zwischen ‘Herr Mustermann’ und ‘Herr Musterman’ in der Kopfzeile. Unsaubere Daten können dennoch weitreichende Folgen haben, insbesondere für datenkritische Branchen wie das Finanz- und Gesundheitswesen.
Falsche Daten kosten die US-Wirtschaft jedes Jahr schätzungsweise 3,1 Milliarden Dollar (Forbes) an Produktivitätsverlusten, Systemausfällen und höheren Wartungskosten. Experten gehen davon aus, dass diese Zahl in den nächsten Jahren noch steigen wird, zumal Schätzungen zufolge bis zum Jahr 2025 weltweit täglich 463 Exabyte an Daten erzeugt werden. (Weltwirtschaftsforum)
Zur Verdeutlichung: Ein Exabyte ist eine Milliarde Milliarden oder eine Quintillion Bytes. Um dies weiter zu erläutern: Die australische Commonwealth Scientific and Industrial Research Organisation (CSIRO) plant, ihr Square Kilometre Array (SKA), ein Radioteleskop der nächsten Generation, aufzurüsten, um im nächsten Jahrzehnt 300 Petabyte Daten pro Jahr zu erzeugen. Wenn man bedenkt, dass 1 Petabyte nur 0,01 Exabyte entspricht und wir uns auf Lichtjahre entfernte Himmelsobjekte beziehen, verblasst selbst dies im Vergleich zu den unendlichen Datenmengen, die wir auf der Erde jeden Tag erzeugen (werden).
Ein Schreibfehler mag zwar harmlos erscheinen, aber die Millionen von Mustermanns, die von ihren Unternehmen eine Rechnung oder einen Brief erhalten, der an einen Herrn Musterman adressiert ist, sind möglicherweise anderer Meinung. Das könnte letztlich zu Umsatzeinbußen führen.
Erfahren Sie Wissenswertes über die IT-Branche, einschließlich wichtiger Begriffe, die Sie kennen müssen.
Wie werden Daten unsauber?
1. Menschliches Versagen
Der häufigste Grund, warum Daten inexakt werden, ist menschliches Versagen. Beispielsweise kommen Tippfehler nicht selten bei der Dateneingabe vor. Im Laufe der Zeit können sich solche menschlichen Fehler häufen und die Integrität Ihrer ansonsten zuverlässigen Daten langsam gefährden. Menschliches Versagen ist auch eine der Hauptursachen für Schwachstellen in der Cybersicherheit.
Die Unvollkommenheit des Menschen lässt sich zwar nicht ausschalten, aber es gibt viele Möglichkeiten, dieses Risiko zu minimieren. Sie können Ihre Mitarbeiter:innen beispielsweise darin schulen, ihre Arbeit immer doppelt zu überprüfen, bevor sie diese abgeben. Selbst dann sollten Sie unbedingt Prozesse einrichten, die sicherstellen, dass ein Redakteur oder Korrektor dieselben Einträge auf ihre Gültigkeit hin überprüft.
2. Gefälschte Kundeneinträge
Haben Sie schon einmal absichtlich einen falschen Namen oder eine falsche E-Mail-Adresse eingegeben, weil Sie nicht wollten, dass ein Unternehmen an Ihre privaten Informationen gelangt? Sie sind nicht allein. Ihre Kund:innen schulden Ihnen keine Informationen, und viele werden Ihnen nicht bereitwillig ihre sensiblen Daten geben, wenn sie Ihrem Unternehmen nicht vertrauen.
Der beste Weg, dieses Risiko zu verringern, ist der Aufbau von Kundenvertrauen. Seien Sie ihnen gegenüber so transparent wie möglich, und versuchen Sie niemals, Informationen von potenziellen Kund:innen durch illegale Praktiken zu erlangen. Seien Sie aufrichtig. Das ist die beste Möglichkeit, um Ihre Vertrauenswürdigkeit zu verbessern.
3. Mangel an Strategie
Es ist wichtig, dass Ihre Abteilungen nicht isoliert sind, insbesondere wenn sie Datenpunkte gemeinsam nutzen. Eine fehlende Strategie für die Datenerfassung kann zu einem faulen Umgang mit Ihren Kund:innen und Daten führen. Wenn zum Beispiel Ihr Marketing-Team dieselben Personen befragen muss wie Ihr Vertriebs-Team, müssen sich beide abstimmen, um Redundanzen zu vermeiden. Dies gewährleistet auch eine konsistente Botschaft für Ihr Branding.
Es kann eine gute Idee sein, einen Datenprüfer innerhalb Ihres Unternehmens zu beauftragen, alle Datenpunkte doppelt zu überprüfen, auch teamübergreifend.
4. Keine Daten-Audits
Die Wahrheit ist, dass alle Unternehmen zu einem bestimmten Zeitpunkt ein gewisses Maß an falschen Daten haben, insbesondere wenn sie schnell expandieren. Ihre Webseite ist ein perfektes Beispiel dafür. Sie können zum Beispiel sagen, dass Sie eine Anzahl von Besucher:innen auf Ihrer Internetseite haben, was absolut korrekt war, als die Webseite zuerst live gegangen ist. Wenn Ihr Unternehmen jedoch wächst, kann diese Zahl in zwei, sechs oder wie vielen Monaten auch immer ungenau sein.
Die proaktive Prüfung Ihrer Daten ist für die Aufrechterhaltung zuverlässiger Datensätze unerlässlich. Im Zeitalter von DSGVO, HIPAA-Compliance und anderen zunehmend strengeren Datenschutzgesetzen für Verbraucher:innen kann die Bedeutung regelmäßiger Datenprüfungen gar nicht hoch genug eingeschätzt werden.
Unsaubere Daten sind eine der vielen IT-Herausforderungen des Jahres 2024.
Entdecken Sie die anderen IT-Herausforderungen, mit denen Unternehmensleiter:innen konfrontiert sind, in unserem Guide.
Beispiele für unsaubere Daten
1. Duplizierte Daten
Dies bezieht sich auf alle Daten, die teilweise oder vollständig dieselben Informationen enthalten. Dies tritt in der Regel auf, wenn dieselben Informationen mehrfach eingegeben werden, meist in unterschiedlichen Formaten. Zum Beispiel, wenn ein Kunde mehrmals anruft und von einer anderen IT-Techniker:in empfangen wird, die seinen Namen jedes Mal ein bisschen anders schreibt. Duplizierte Daten können wie folgt aussehen:
- Raine Grey
- Raine Gray
- Rain Grey
- Reine Grey
- Rainey Grey
Duplizierte Daten können auch als redundant betrachtet werden, und entstehen, wenn Daten zwischen Teams nicht synchronisiert werden. Selbst wenn sich das System auf eine Person bezieht (z. B. Raine Grey, die Autorin dieses Artikels), erscheinen eigentlich fünf verschiedene Personen.
2. Unvollständige Daten
Es handelt sich um Daten, denen es an Informationen fehlt. Wenn Sie z. B. einen Interessenten auffordern, für Ihren Newsletter seinen vollständigen Namen auszufüllen, aber nicht angeben, dass diese Felder obligatorisch sind, bekommen Sie möglicherweise nur einen Vor- oder Nachnamen, wodurch Ihre E-Mail-Kampagne weniger personalisiert ist.
3. Ungenaue Daten
Ungenaue Daten sind irreführende Informationen oder Daten im Allgemeinen, die Fehler enthalten. In manchen Fällen kann es sich bei ungenauen Daten auch um doppelte Daten handeln, sodass Sie oder eines Ihrer Teammitglieder jeden Dateneintrag manuell überprüfen müssten, um den richtigen Eintrag zu finden.
4. Veraltete Daten
Veraltete Daten sind alle Daten, die früher korrekt waren, aber aus irgendeinem Grund nicht mehr gültig sind. Häufige Beispiele hierfür sind alte E-Mail-Adressen und Änderungen von Titeln (z. B. Herr zu Dr., Herr zu Prof. usw.). Aus diesem Grund sind regelmäßige Datenprüfungen besonders wichtig.
5. Unsichere Daten
Dabei handelt es sich um alle Daten, die durch eine Cyber-Bedrohung wie Spear-Phishing gefährdet sind. Unsichere Datenpunkte werden nicht durch ein Sicherheitsprotokoll verschlüsselt oder sind nicht durch eine Multi-Faktor-Authentifizierung geschützt. Auf unsichere Daten kann im Grunde jeder in Ihrem Unternehmen zugreifen.
Wie Sie Ihre Daten bereinigen
Die Datenverwaltung kann einfach sein, wenn Sie über die notwendigen Tools und Ressourcen verfügen. Am wichtigsten ist, dass Sie Ihre Kundendaten regelmäßig überprüfen, um zu wissen, wo Sie anfangen und was Sie tun müssen. Schließlich weiß man nicht, was man nicht weiß.
Dies beginnt in der Regel mit einem Data-Warehouse, einem zentralen Speicher, der eine einheitliche Übersicht über alle Daten eines Unternehmens bietet. Auf diese Weise erhalten Sie ein besseres und umfassenderes Verständnis des Umfangs potenzieller Probleme und können den Schweregrad jeder einzelnen bestimmen. Dieser Prozess der Entdeckung von Mustern aus Ihren Daten fällt unter den Oberbegriff Data-Mining.
Sie können dann Aktionspläne entwickeln, um alle aufgedeckten unsauberen Daten zu beseitigen. Normalerweise geschieht dies manuell, aber manche IT-Teams verwenden auch Microsoft Excel. Sie können auch die heute auf dem Markt erhältlichen Tools und Software in Betracht ziehen, die Ihnen helfen, unsaubere Daten zu identifizieren und zu bereinigen.
Schützen Sie sich vor unsauberen Daten
In Anbetracht der Datenmenge, die Unternehmen heute verwalten müssen, ist es unmöglich, dass einige Daten nicht unsauber werden. Dennoch können Sie deren potenzielle Auswirkungen auf Ihr Unternehmen minimieren, indem Sie proaktiv mit allen Informationen umgehen, die Sie erhalten und verarbeiten. Es ist sehr ratsam, dass Sie Ihre Daten regelmäßig überprüfen und bereinigen. Dies kann zwar nicht vollständig verhindern, dass unsaubere Daten in Ihrem Unternehmen auftauchen, aber es kann ihre Bedrohung für Ihr Gesamtergebnis vernachlässigbar machen.