¿Cuántos datos se generan en un minuto en Internet? Cada vez que un usuario se inscribe en una red social, responde una encuesta de satisfacción o un formulario sobre un producto, se están recopilando grandes cantidades de datos: nombres, apellidos, direcciones, emails…, pero también gustos, poder adquisitivo o formación. Sin un orden establecido, las bases de datos se convierten en poco o nada efectivas. Para evitar el caos y mantener una alta calidad de los datos, no solo es importante implementar medidas efectivas, también es conveniente familiarizarse con conceptos que han surgido en el entorno Big Data.

El concepto Big Data se ha convertido en un tema recurrente en el ámbito tecnológico. Se refiere a los datos que grandes empresas son capaces de recopilar. Por su dimensión –se habla de therabytes o petabytes de datos- los sistemas tradicionales son incapaces de procesar. De esta manera, junto con el Big Data aparece el Deep Data, el cruce y selección de datos contenido en un entorno Big Data, realizado por analistas de un área concreta y que da como resultado informes no redundantes.

La clave que diferencia Big Data de Deep Data es el análisis de los datos usados. El Big Data lo analiza absolutamente todo, mientras que el Deep Data toma ciertos datos de interés. En este caso, si una empresa quiere saber qué productos se venderán en la próxima Navidad, no necesitará saber los datos de localización de los clientes o qué idioma usaron al visitar nuestro site. En cambio, querrá conocer las tendencias de los productos y su relación con las franjas de edad u otros datos demográficos.

Otro concepto que no puede ser ajeno es el Data Lake. Se trata de un sistema de almacenamiento de datos en su formato original en una única base de la que se pueden extraer esquemas pormenorizados. Fue inventado por James Dixon en 2015 y es utilizado por compañías del nivel de Amazon.

Si una base de datos no está bien gestionada en su totalidad y contiene datos erróneos, registros incorrectos o duplicados, calles y municipios desactualizados, lo más seguro es que, a la larga, deje de ser efectiva. Cuando esto ocurre, se debe hablar de Dirty Data. Si se busca una alta calidad de datos, habrá que implementar metodologías de recopilación, normalización y deduplicación que eviten la proliferación de datos corruptos y Dirty Data,

Big data, Deep Data o Data Lake: todo nos lleva al concepto Data Quality. Puede parecer obvio que la gestión de los datos debe estar focalizada en la buena gestión y captación de los datos, pero ¿cómo determinaremos la calidad de datos sin un baremo claro? El Data Quality marca como determinarlo. Kevin Roebuck en su libro “Data Quality: High-impact Strategies” indica el conjunto de variables cuantitativas y cualitativas que determinan la calidad de los datos almacenados: grado de precisión, si los datos están o no completos, grado de actualización o contextualización.

El nivel de cumplimiento de todas estas variables permitirá a cualquier compañía afrontar el proceso de analítica empresarial de los datos y generar informes relevantes. Por ello, es totalmente necesario incluir en los procedimientos la identificación de posibles duplicidades, eliminación y corrección de datos erróneos mediante herramientas de Calidad de Datos.

<< Volver

Share This