I dirty data, o dati non puliti, sono qualsiasi tipo di dati che contengono informazioni imprecise, incomplete, incoerenti o non aggiornate. Sebbene queste informazioni errate siano di solito molto piccole (si pensi a “Mr. Smith” e ”Mr. Smyth, nel titolo) e causate da errori umani, i dirty data possono avere conseguenze di vasta portata, soprattutto per i settori critici per i dati, come quello finanziario e sanitario.
Si stima che i dati errati costino ogni anno all’economia statunitense circa 3,1 miliardi di dollari (Forbes) in termini di perdita di produttività, interruzioni di sistema e maggiori costi di manutenzione. Gli esperti prevedono che questo numero sia destinato ad aumentare nei prossimi anni, soprattutto perché si stima che entro il 2025 verranno creati 463 exabyte di dati al giorno a livello globale (World Economic Forum).
Per chiarire, un exabyte è un miliardo di miliardi o un quintilione di byte. Per mettere questi dati in un’ulteriore prospettiva, il Commonwealth Scientific and Industrial Research Organisation (CSIRO) in Australia sta pianificando di aggiornare il suo Square Kilometre Array (SKA), un radiotelescopio di nuova generazione, per generare 300 petabyte di dati all’anno nel prossimo decennio. Considerando che 1 petabyte equivale a soli 0,01 exabyte e che ci stiamo riferendo a oggetti celesti lontani anni luce, anche questo dato impallidisce rispetto all’infinita quantità di dati che produciamo (e produrremo) ogni giorno sulla Terra.
Così, mentre un errore ortografico può sembrare innocuo, i milioni di Mr. Smith che ricevono dalle loro aziende una fattura o una lettera indirizzata a un Mr. Smyth potrebbero avere un’opinione diversa, e in ultima analisi potrebbero perdere vendite.
Acquisisci preziose nozioni sul settore IT, compresi i termini essenziali da conoscere.
Come si sporcano i dati?
1. Errore umano
Il motivo più comune per cui i dati si sporcano è l’errore umano. Sebbene l’amata frase “Nessuno è perfetto” serva a tranquillizzare le persone che commettono errori nella vita, questo approccio potrebbe anche contribuire a un errore nell’inserimento dei dati, come ad esempio un errore di battitura. Con il tempo, questi errori umani possono accumularsi e compromettere lentamente l’integrità di dati altrimenti affidabili. L’errore umano è anche una delle principali cause di vulnerabilità della sicurezza informatica.
Vale la pena notare che non è possibile eliminare l’imperfezione umana, ma ci sono molti modi per ridurre i rischi correlati. Per esempio, puoi insegnare ai tuoi dipendenti a ricontrollare sempre il loro lavoro prima di consegnarlo. Anche in questo caso, è consigliabile creare processi per garantire che un redattore o un correttore di bozze controlli le stesse cose per assicurarne la validità.
2. Inserimenti di informazioni false da parte dei clienti
Hai mai inserito intenzionalmente un nome o un indirizzo e-mail sbagliato perché non volevi che un’azienda ottenesse informazioni private? Non siete soli. I tuoi clienti non ti devono le loro informazioni e molti non ti daranno volentieri i loro dati sensibili se non si fidano di te.
Il modo migliore per ridurre questo rischio è costruire un rapporto di fiducia con i clienti. Ricordati di essere trasparente con loro il più possibile e non utilizzare mai pratiche “black-hat” per manipolare le informazioni dei potenziali clienti. Sii sincero: Questo è il modo più efficace per migliorare il tuo indice di fiducia.
3. Nessuna strategia o mancanze nella strategia
È importante che i tuoi reparti non siano isolati, soprattutto se condividono data point. La mancanza di una strategia di raccolta dei dati può portare a un approccio pigro al trattamento dei clienti e dei dati. Per esempio, se il team di marketing deve fare colloqui alle stesse persone del team di vendita, entrambi i team devono coordinarsi per evitare ridondanze. In questo modo garantisci anche di comunicare una messaggio coerente con la tua strategia di branding.
Potrebbe essere una buona idea assegnare un controllore di dati all’interno dell’organizzazione per ricontrollare tutti i data point, anche tra i vari team.
4. Nessun audit dei dati
La verità è che tutte le organizzazioni possono avere un certo livello di dati errati a un certo punto, soprattutto se la loro azienda è in rapida espansione. Il tuo sito web ne è un esempio perfetto. Per esempio, potresti affermare di collaborare con un numero X di persone sul tuo sito web, e sarebbe un dato perfettamente corretto quando viene inserito nel sito. Tuttavia, se la tua azienda cresce, questo numero potrebbe diventare impreciso dopo due, sei o magari molti mesi.
La verifica proattiva dei dati è fondamentale per mantenere registri affidabili. Nell’era della GDPR, della conformità HIPAA e di altre leggi sempre più severe sulla privacy dei consumatori, non si può sottovalutare l’importanza di condurre regolari verifiche dei dati.
I dirty data sono una delle tante sfide IT per il 2024.
Scopri le altre sfide IT affrontate dai leader aziendali scaricando questa guida.
Esempi di dirty data
1. Dati duplicati
Si tratta di dati che condividono parzialmente o totalmente le stesse informazioni. Ciò si verifica in genere quando le stesse informazioni vengono inserite più volte, di solito in formati diversi. Per esempio, se un cliente chiama più volte e viene ricevuto da un tecnico informatico diverso che ogni volta digita il suo nome in modo leggermente diverso. I dati duplicati possono apparire come segue:
- Raine Grey
- Raine Gray
- Rain Grey
- Reine Grey
- Rainey Grey
I dati duplicati possono anche essere considerati dati ridondanti, che possono essere generati quando i dati tra i team non sono sincronizzati. Pertanto, anche se il sistema si riferisce a una sola persona (come Raine Grey, l’autrice di questo articolo), i dati sarebbero visualizzati come se fossero di cinque persone diverse.
2. Dati incompleti
Sono dati che mancano di informazioni. Per esempio, se chiedi a un potenziale cliente il suo nome completo per la tua newsletter via e-mail, ma non indichi che questi campi sono obbligatori, potresti avere solo un nome o un cognome, rendendo la tua campagna e-mail meno personalizzata.
3. Dati imprecisi
I dati imprecisi sono informazioni fuorvianti o dati che contengono errori. In alcune occasioni, i dati imprecisi possono anche essere duplicati, il che richiederebbe a te o a uno dei membri del tuo team di controllare manualmente ogni inserimento di dati per trovare quello corretto.
4. Dati obsoleti
I dati obsoleti sono quelli che un tempo erano accurati ma che, per qualsiasi motivo, non sono più validi. Esempi comuni sono i vecchi indirizzi e-mail e i cambi di titolo (per esempio, da Signorina a Signora o da Signor a Dottor, ecc.) Per questo motivo sono particolarmente importanti le verifiche periodiche dei dati.
5. Dati non sicuri
Si tratta di tutti i dati vulnerabili a una minaccia informatica, come lo spear phishing. I data point non sicuri non sono crittografati da alcun protocollo di sicurezza o non sono protetti dall’autenticazione a più fattori. In sostanza, i dati non sicuri possono essere consultati da chiunque nella tua azienda.
Come pulire i dati
La gestione dei dati può essere semplice se disponi degli strumenti e delle risorse necessarie. Soprattutto, devi impegnarti con costanza a verificare regolarmente i dati dei clienti per sapere da dove cominciare e cosa fare. In fondo, non puoi conoscere ciò che non conosci.
Di solito si inizia con una data warehouse, un archivio centralizzato che fornisce una visione unificata di tutti i dati di un’organizzazione. In questo modo ottieni una comprensione migliore e più completa della portata dei potenziali problemi e puoi determinare la gravità di ciascuno di essi. Questo processo di scoperta di modelli dai dati rientra nell’ambito del data mining.
Puoi quindi sviluppare piani d’azione per risolvere le questioni legate ai dirty data rilevati. In genere, questa operazione viene eseguita manualmente, ma alcuni team IT possono utilizzare Microsoft Excel. Puoi anche prendere in considerazione gli strumenti e i software disponibili sul mercato che aiutano a identificare e pulire i dirty data.
Proteggersi dai dirty data
Dato il volume di dati che le aziende devono gestire oggi, è impossibile che alcuni dati non si sporchino. Detto questo, puoi ridurre al minimo il loro potenziale impatto sull’organizzazione adottando un atteggiamento proattivo nei confronti di tutte le informazioni che ricevi e gestisci. Ti consigliamo vivamente di controllare e pulire regolarmente i dati. Anche se questo non può eliminare del tutto i dirty data dall’organizzazione, può rendere trascurabile la loro minaccia per i profitti.