Qu’est-ce qu’une dirty data (donnée sale) ?

Les dirty data , ou données sales ou données impures, sont tous les types de données qui contiennent des informations inexactes, incomplètes, incohérentes ou périmées. Bien que ces fausses informations soient généralement très minimes (ex: « Mr. Smith » et « Mr. Smyth ») et causées par l’erreur humaine, les dirty data peuvent avoir des conséquences considérables, en particulier dans les secteurs où les données sont essentielles, tels que la finance et les soins de santé.

On estime que les données erronées coûtent chaque année à l’économie américaine environ 3,1 milliards de dollars (Forbes) en perte de productivité, en pannes de système et en coûts de maintenance plus élevés. Les experts prévoient que ce chiffre ne fera qu’augmenter au cours des prochaines années, d’autant plus que l’on estime que 463 exaoctets de données seront créés chaque jour dans le monde d’ici à 2025 (Forum économique mondial).

Un exaoctet correspond à un milliard de milliards ou à un quintillion d’octets. Pour mieux comprendre, la Commonwealth Scientific and Industrial Research Organisation (CSIRO) en Australie prévoit de moderniser son Square Kilometre Array (SKA), un radiotélescope de nouvelle génération, afin de générer 300 pétaoctets de données par an au cours de la prochaine décennie. Sachant qu’un pétaoctet ne représente que 0,01 exaoctet et qu’il s’agit de regarder des objets célestes situés à des années-lumière, ce chiffre est bien faible par rapport à la quantité infinie de données que nous produisons (et produirons) chaque jour sur Terre.

Ainsi, si une faute d’orthographe peut sembler anodine, les millions de M. Smith qui reçoivent de leur entreprise une facture ou une lettre adressée à un M. Smyth peuvent avoir une opinion différente, ce qui pourrait en fin de compte se traduire par une perte de chiffre d’affaires.

Comment les données deviennent-elles sales ?

1. Erreur humaine

La raison la plus fréquente pour laquelle les données sont salies est l’erreur humaine. Si la phrase bien connue « Personne n’est parfait » est censée apaiser les gens lorsqu’ils font des erreurs dans la vie, elle peut également contribuer à un faux pas dans la saisie des données, tel qu’une erreur de frappe. Au fil du temps, ces erreurs humaines peuvent s’accumuler et compromettre peu à peu l’intégrité de vos données, qui étaient jusqu’alors fiables. L’erreur humaine est également l’une des principales causes de vulnérabilité en matière de cybersécurité.

Il convient de noter qu’il est impossible d’éliminer les imperfections humaines, mais qu’il existe de nombreux moyens d’atténuer ce risque. Par exemple, vous pouvez former vos employés à toujours revérifier leur travail avant de le soumettre. Même dans ce cas, il est vivement recommandé de créer des processus garantissant qu’un rédacteur ou un correcteur vérifie les mêmes entrées pour s’assurer de leur validité.

2. Fausses entrées de clients

Avez-vous déjà saisi intentionnellement un nom ou une adresse électronique erronés parce que vous ne vouliez pas qu’une entreprise obtienne des informations privées ? Vous n’êtes pas seul. Vos clients ne vous doivent pas leurs informations et nombre d’entre eux ne vous communiqueront pas volontiers leurs données sensibles s’ils ne vous font pas confiance.

La meilleure façon de réduire ce risque est d’obtenir la confiance du client. Soyez aussi transparent que possible avec eux et n’utilisez jamais de pratiques black-hat pour manipuler les informations des prospects. Soyez sincère : C’est le meilleur moyen d’améliorer la confiance.

3. Absence de stratégie ou manque de stratégie

Il est important que vos services ne soient pas cloisonnés, surtout s’ils partagent des points de données. L’absence de stratégie de collecte de données peut conduire à une approche paresseuse du traitement de vos clients et de vos données. Par exemple, si votre équipe de marketing doit interviewer les mêmes personnes que votre équipe de vente, les deux équipes doivent se coordonner pour éviter toute redondance. Cela permet également d’assurer la consistance du message de votre marque.

Il peut être judicieux de désigner un vérificateur de données au sein de votre entreprise pour vérifier tous les points de données, même au sein des équipes.

4. Pas d’audit de données

La vérité est que toutes les entreprises peuvent avoir un certain niveau de mauvaises données à un moment donné, en particulier si leur entreprise est en pleine expansion. Votre site web en est un parfait exemple. Par exemple, vous pouvez dire que votre site web accueille un nombre X de personnes, ce qui est parfaitement exact lorsque le site est en ligne. Néanmoins, si votre entreprise se développe, ce chiffre pourrait être inexact dans deux, six mois ou plus.

L’audit proactif de vos données est essentiel pour maintenir des enregistrements fiables. Avec le RGPD, la conformité HIPAA et d’autres lois de plus en plus strictes sur la protection de la vie privée des consommateurs, on ne saurait trop insister sur l’importance de mener régulièrement des audits de données.

Exemples de dirty data

1. Données en double

Il s’agit de toute donnée qui partage partiellement ou totalement la même information. Cela se produit généralement lorsque les mêmes informations sont saisies plusieurs fois, généralement dans des formats différents. Par exemple, si un client appelle plusieurs fois et est reçu par un technicien informatique différent qui tape son nom légèrement différemment à chaque fois. Les données en double peuvent ressembler à ceci :

  • Raine Grey
  • Raine Gray
  • Rain Grey
  • Reine Grey
  • Rainey Grey

Les données en double peuvent également être considérées comme des données redondantes, ce qui se produit lorsque les données entre les équipes ne sont pas synchronisées. Ainsi, même si le système fait référence à une seule personne (comme Raine Grey, l’auteur de cet article), j’apparaîtrai comme cinq personnes différentes.

2. Données incomplètes

Il s’agit de données qui manquent d’informations. Par exemple, si vous demandez à un prospect son nom complet pour votre newsletter envoyée par e-mail, mais que vous n’indiquez pas que ces champs sont obligatoires, vous risquez de n’avoir qu’un prénom ou un nom de famille, ce qui rendra votre campagne moins personnalisée.

3. Données inexactes

Les données inexactes sont des informations trompeuses ou des données contenant des erreurs. Dans certains cas, les données inexactes peuvent également être des données dupliquées, ce qui vous obligerait, vous ou l’un des membres de votre équipe, à vérifier manuellement chaque entrée de données pour trouver la bonne.

4. Données obsolètes

Les données obsolètes sont des données qui étaient exactes mais qui ne sont plus valables pour quelque raison que ce soit. Les exemples les plus courants sont les anciennes adresses électroniques et les changements de titres (par exemple, Mlle devient Mme ou M. devient Dr, etc.). C’est pourquoi il est particulièrement important de procéder à des audits réguliers des données.

5. Données non sécurisées

Il s’agit de toute donnée vulnérable à une cybermenace, telle que le spear phishing. Les points de données non sécurisés ne sont pas chiffrés par un protocole de sécurité ou ne sont pas protégés par une authentification multifactorielle (AMF). En fait, les données non sécurisées peuvent être consultées par n’importe qui dans votre entreprise.

Comment nettoyer vos données

La gestion des données peut être simple si vous disposez des outils et des ressources nécessaires. Plus important encore, vous devez vous engager fermement à vérifier régulièrement vos données clients pour savoir par où commencer et quoi faire. Après tout, on ne sait pas ce que l’on ne sait pas.

Cela commence généralement par un entrepôt de données, un référentiel centralisé qui fournit une vue unifiée de toutes les données d’une entreprise. À partir de là, vous pouvez mieux comprendre l’étendue des problèmes potentiels et déterminer la gravité de chacun d’entre eux. Ce processus de découverte de modèles à partir de vos données relève du domaine général de l’exploration de données (data mining).

Vous pouvez ensuite élaborer des plans d’action pour résoudre les problèmes de dirty data détectés. En général, cette opération est effectuée manuellement, mais certaines équipes informatiques peuvent utiliser Microsoft Excel. Vous pouvez également envisager les outils et les logiciels disponibles sur le marché actuellement qui vous aident à identifier et à nettoyer les dirty data.

Se protéger contre les dirty data

Compte tenu du volume de données que les entreprises doivent gérer de nos jours, il est impossible de ne pas affecter certaines données. Cela dit, vous pouvez minimiser leur impact organisationnel potentiel en étant proactif sur toutes les informations que vous recevez et traitez. Il est fortement recommandé d’auditer et de nettoyer régulièrement vos données. Bien que cela ne permette pas d’éliminer totalement les dirty data de votre entreprise, cela peut rendre négligeable la menace qu’elles représentent pour vos résultats.

Pour aller plus loin

Créer une équipe informatique efficace et performante nécessite une solution centralisée qui soit l’outil principal pour fournir vos services. NinjaOne permet aux équipes informatiques de surveiller, gérer, sécuriser et prendre en charge tous les appareils, où qu’ils soient, sans avoir besoin d’une infrastructure complexe sur site.

Pour en savoir plus sur NinjaOne Endpoint Management, participez à une visite guidée ou commencez votre essai gratuit de la plateforme NinjaOne.

Vous pourriez aussi aimer

Prêt à simplifier les aspects les plus complexes de l'informatique et de la sécurité
×

Voir NinjaOne en action !

En soumettant ce formulaire, j'accepte la politique de confidentialité de NinjaOne.

Commencez un essai gratuit du logiciel de gestion des terminaux classé N°1 sur G2

Pas de carte de crédit requise, accès complet à toutes les fonctionnalités.