Los datos sucios, o dirty data, son cualquier tipo de dato que contenga información inexacta, incompleta, incoherente o anticuada. Aunque estas informaciones erróneas suelen ser muy pequeñas (ej. «Mr. Smith» vs. «Mr. «Sr. Smyth») y causadas por errores humanos, los datos sucios pueden tener consecuencias de gran alcance, sobre todo para sectores en los que los datos son fundamentales, como el financiero y el sanitario.
Se calcula que los datos erróneos cuestan cada año a la economía estadounidense unos 3.100 millones de dólares (Forbes) en pérdida de productividad, interrupciones del sistema y mayores costes de mantenimiento. Los expertos prevén que esta cifra no hará sino aumentar en los próximos años, sobre todo porque se calcula que en 2025 se crearán 463 exabytes de datos al día en todo el mundo (Foro Económico Mundial (FEM)).
Para aclararlo, un exabyte es un billón de billones, o un quintillón de bytes. Por ejemplo, la Organización de Investigación Científica e Industrial del Commonwealth (CSIRO), en Australia, tiene previsto modernizar su Square Kilometre Array (SKA), un radiotelescopio de nueva generación, para generar 300 petabytes de datos al año en la próxima década. Teniendo en cuenta que 1 petabyte es sólo 0,01 exabyte y que nos referimos a observar objetos celestes a años luz de distancia, incluso esto palidece en comparación con la infinita cantidad de datos que producimos (y produciremos) cada día en la Tierra.
Por tanto, aunque un error ortográfico pueda parecer inofensivo, los millones de «señores Smith» que reciben una factura o una carta dirigida a un «señor Smyth» de sus empresas pueden tener una opinión diferente, lo que, en última instancia, podría suponer una pérdida de ventas.
¿Cómo se ensucian los datos?
1. Error humano
La razón más común por la que los datos se ensucian es el error humano. Aunque la célebre frase «Nadie es perfecto» sirve para tranquilizar a la gente cuando comete errores, también podría contribuir a un desliz en la introducción de datos, como un error tipográfico. Con el tiempo, estos errores humanos pueden acumularse y comprometer poco a poco la integridad de tus datos, por lo demás fiables. El error humano es también una de las principales causas de vulnerabilidad de la ciberseguridad.
Vale la pena señalar que no se puede eliminar la imperfección humana, pero hay muchas formas de mitigar este riesgo. Por ejemplo, puedes formar a tus empleados para que comprueben siempre su trabajo antes de entregarlo. Incluso en ese caso, es muy recomendable crear procesos que garanticen que un editor o corrector comprueba las mismas entradas para garantizar su validez.
2. Entradas falsas de clientes
¿Alguna vez has introducido intencionadamente un nombre o una dirección de correo electrónico erróneos porque no querías que una empresa obtuviera información privada? No eres el único. Tus clientes no te deben su información, y muchos no te la darán de buen grado si no confían en ti.
La mejor manera de reducir este riesgo es generar confianza en el cliente. Sé transparente con ellos en la medida de lo posible y nunca utilices prácticas de black-hat para manipular la información de los clientes potenciales. Sé auténtico: es la mejor manera de mejorar tu confianza.
3. Poca o ninguna estrategia
Es importante que tus departamentos no estén aislados, especialmente si comparten puntos de datos. La falta de una estrategia de recopilación de datos puede conducir a un enfoque perezoso a la hora de tratar a tus clientes y tus datos. Por ejemplo, si tu equipo de marketing necesita hablar con las mismas personas que tu equipo de ventas, ambos equipos deben coordinarse para garantizar que no haya redundancias. Esto también garantiza la coherencia del mensaje de tu marca.
Puede ser una buena idea asignar a un verificador de datos dentro de tu organización para que vuelva a comprobar todos los puntos de datos, incluso entre equipos.
4. No hay auditorías de datos
Lo cierto es que todas las organizaciones pueden tener algún nivel de datos erróneos en un momento dado, sobre todo si la empresa se está expandiendo rápidamente. Tu sitio web es un ejemplo perfecto de ello. Por ejemplo, puedes decir que tu sitio web acoge a X número de personas, lo cual es perfectamente correcto cuando el sitio está en línea. No obstante, si tu empresa crece, esta cifra podría ser inexacta dentro de dos, seis o más meses.
La auditoría proactiva de los datos es vital para mantener registros fiables. Con el GDPR, la HIPAA y otras leyes de privacidad del consumidor cada vez más estrictas, nunca se insistirá lo suficiente en la importancia de realizar auditorías de datos regulares.
Ejemplos de datos sucios
1. Datos duplicados
Se refiere a cualquier dato que comparta parcial o totalmente la misma información. Esto suele ocurrir cuando se introduce la misma información varias veces, normalmente en formatos diferentes. Por ejemplo, si un cliente llama varias veces y lo atiende un técnico diferente que teclea su nombre de forma ligeramente distinta cada vez. Los datos duplicados pueden tener este aspecto:
- Raine Grey
- Raine Gray
- Rain Grey
- Reine Grey
- Rainey Grey
Los datos duplicados también pueden considerarse datos redundantes, lo que ocurre cuando los datos entre equipos no están sincronizados. Así, aunque el sistema se refiera a una persona (como Raine Grey, la autora de este artículo), aparecería como cinco personas diferentes.
2. Datos incompletos
Son datos que carecen de información. Por ejemplo, si le pides a un posible cliente su nombre completo para inscribirse a la newsletter pero no indicas que estos campos son obligatorios, es posible que sólo tengas su nombre o apellidos, lo que hará que tu campaña por correo electrónico sea menos personalizada.
3. Datos inexactos
Los datos inexactos son información engañosa o cualquier dato que contenga errores. En algunas ocasiones, los datos inexactos también pueden ser datos duplicados, lo que obligaría, a ti o a uno de los miembros de tu equipo a comprobar manualmente cada entrada de datos para encontrar la correcta.
4. Datos obsoletos
Por datos obsoletos se entiende cualquier dato que solía ser exacto pero que ya no es válido por el motivo que sea. Ejemplos comunes de esto son las direcciones de correo electrónico antiguas y los cambios de títulos. Por eso son especialmente importantes las auditorías periódicas de datos.
5. Datos inseguros
Se trata de cualquier dato vulnerable a una ciberamenaza, como el spear phishing. Los puntos de datos inseguros no están cifrados por ningún protocolo de seguridad o no están protegidos por autenticación multifactor. Esencialmente, cualquier persona de tu empresa puede acceder a datos inseguros.
Cómo limpiar los datos
La gestión de datos puede ser sencilla si se dispone de las herramientas y los recursos necesarios. Y lo que es más importante, debes comprometerte a auditar periódicamente los datos de tus clientes para saber por dónde empezar y qué hacer. Al fin y al cabo, no puedes conocer lo que no conoces.
Esto suele comenzar con un almacén de datos, un repositorio centralizado que proporciona una visión unificada de todos los datos de una organización. A partir de aquí, podrás comprender mejor y de forma más exhaustiva el alcance de los posibles problemas y determinar la gravedad de cada uno de ellos. Este proceso de descubrimiento de patrones a partir de los datos se engloba dentro de la minería de datos.
A continuación, puedes desarrollar planes de acción para resolver los datos sucios detectados. Normalmente, esto se hace manualmente, pero algunos equipos informáticos pueden utilizar Microsoft Excel. También puedes considerar las herramientas y el software disponibles en el mercado actual que te ayudan a identificar y limpiar los datos sucios.
Protegerse contra los datos sucios
Dado el volumen de datos que las empresas deben gestionar hoy en día, es imposible que algunos datos no se ensucien. Dicho esto, puedes minimizar el posible impacto organizativo siendo proactivo con respecto a toda la información que recibes y manejas. Es muy recomendable que audites y limpies los datos con regularidad. Aunque esto no puede eliminar por completo los datos sucios de tu organización, puede hacer que su amenaza para tus resultados sea insignificante.