¿Qué es la limpieza de datos?
Te contamos los elementos esenciales para organizar, limpiar y estructurar tus datos, qué es la estructura Tidy y por qué te recomendamos usarla.
Disponible en:
Por Nicolás Barahona. Publicado el 10 de agosto de 2021.
La limpieza de datos consiste en preparar los datos para su uso y análisis adecuados, que evite los errores y malinterpretación de los mismos.
¿Cómo limpiar los datos?
El primer paso para limpiar tus datos es contar con el formato correcto. Es ideal que los datos se encuentren en Excel o CSV. No deben ser formatos de imagen o que no se pueden reutilizar fácilmente, como el PDF.
Si tienes una imagen de la que quieras extraer información, como podría ser una foto de una tabla con datos de vacunación publicada por tu gobierno, puedes utilizar herramientas como www.onlineocr.net/es. En el caso de un PDF puedes usar nuestra aplicación y en cuatro pasos obtendrás el texto que antes no podías manipular.
Después de que tengas la información en el formato correcto debes ordenarla, en especial cuando te enfrentas a estos dos casos, que son los más frecuentes.
El primero es que tienes que trabajar con una base de datos que no construiste tú. Aquí unos ejemplos:
- La autoridad de comercio exterior de tu país te entregó una tabla con los alimentos más exportados en los últimos cinco años.
- Una organización de derechos humanos consolidó información sobre casos de maltrato infantil durante la pandemia por Covid-19.
- Tu jefe te envió un documento Excel con los datos sobre compras y ventas de la organización en la que trabajas.
- Descargaste la tabla de los Billboard Hot 100 que se encuentra en Wikipedia.
El segundo es que estés construyendo una base de datos desde cero.
Para ambos es clave identificar las variables que integran la información.
Tomemos el ejemplo de la tabla de datos de la autoridad de comercio. Supongamos que esto es lo que entregaron:
Producto | Banano | Café | Arroz | Manzanas | Peras |
Toneladas | 120 | 100 | 82 | 32 | 15 |
Principal destino | Estados Unidos | Reino Unido | Francia | Estados Unidos | Bélgica |
Aquí tienes tres variables o categorías: Producto, Toneladas y Principal destino. Sabemos que lo son porque, más allá del nombre, son las que dan sentido a la información de la tabla. Solo tienen un problema: no están organizadas correctamente.
Estructura Tidy
La mejor forma es seguir la estructura Tidy. Esta consiste en que cada variable o categoría sea una columna, y cada dato que la compone se ubique en una fila.
Aplicando esto, el ejemplo anterior quedaría así:
Producto | Toneladas | Principal destino |
Banano | 120 | Estados Unidos |
Café | 100 | Reino Unido |
Arroz | 82 | Francia |
Manzanas | 32 | Estados Unidos |
Peras | 15 | Bélgica |
Aquí vemos que las categorías van al inicio de la columna, que no se modifican y que sirven como guía para ubicar un tipo determinado de información. Esto va a permitir filtrar los datos, analizarlos mejor y visualizarlos correctamente.
Miremos ahora cómo se podría hacer una tabla si estuvieras creando una base de datos desde cero. Pensemos que eres un historiador y estás investigando sobre los principales grupos políticos en una región.
La información que recopilaste tiene distintos atributos como el nombre del grupo, su líder y su ideología. Decidiste colocarla en columnas, mientras que ubicaste en las filas a los grupos que identificaste. Frente al nombre llenaste los campos así:
Nombre | Comunista | Socialista | Fascista | Líder |
Azul | x | Juan | ||
Verde | x | Pedro | ||
Naranja | x | Alberto |
Como ves, la información presentada de esta forma puede tornarse confusa y se dificulta el proceso para filtrar y visualizar.
Mira cómo cambia con la estructura Tidy:
Nombre | Ideología | Líder |
Azul | Socialista | Juan |
Verde | Comunista | Pedro |
Naranja | Socialista | Alberto |
Lo que acabamos de hacer aplica para casos sencillos y complejos, como organizar los registros de contratación pública que, como mínimo, tienen más de diez variables.
Una vez que usamos la estructura Tidy es necesario estandarizar los valores. Es decir, que la información en las filas siga un mismo formato. Por ejemplo, si tienes una variable con el género de las personas, debes decidir cómo se va a presentar la información. No puedes poner en una fila la letra F, en otra la palabra “Masculino” y en otra “Mujer”. Otro caso, con pesos. No puedes poner Kg, kilos y kilogramos. Debes elegir una sola opción porque aunque sabemos que significan lo mismo, para los computadores significan cosas distintas.
Unos últimos consejos
Con esta explicación ya puedes empezar a limpiar tus bases de datos. Ahora te dejamos unas recomendaciones finales para que las apliques en el proceso.
- Los títulos de las columnas deben ocupar una sola fila.
- Cada variable debe estar en una sola columna. Por ejemplo, debes registrar en una el nombre, en la otra el apellido, en la otra la edad de una persona.
- Cada columna debe tener un mismo tipo de dato. Si se está hablando de nombres, fechas, edades o dinero, cada uno de ellos tienen tipos de datos diferentes. El primero es un tipo de dato alfabético, el segundo tiene formato de fecha y los dos últimos tienen datos numéricos. Esto puedes configurarlo en Excel o Google Sheets.
- Cada registro de datos es una fila. Por ejemplo, si se tiene el precio de un producto, es ideal que en una columna se encuentre el número y en la otra el tipo de moneda. Así cada registro debe hacer crecer la tabla con nuevas filas y no con nuevas columnas.
- No debe haber variables ocultas en las celdas.
Recuerda que al tener los datos limpios y ordenados se pueden interrogar y resolver preguntas con los mismos. Lo que te ofrece un número de posibilidades gigante para explorar y explicar tu mundo.
¡Esta entrada se basa en una guía detallada de Datasketch que publicaremos muy pronto! Sigue nuestras redes para estar al día.
Links recomendados
En estos cuatro videos podrás conocer más sobre Tidy Data, los principios de las bases de datos y cómo limpiarlos con Google Sheets.
-
BSG Institute. 10 de enero de 2020. Video: ¿Qué es el Tidy Data? (es)
-
Denys07M. 9 de noviembre de 2017. Video: Principles of Tidy Data. (en)https://www.youtube.com/watch?v=oQuupzfX9OQ
-
Hadley Wickham. Tidy Data. Journal of Statistical Software. (en) https://vita.had.co.nz/papers/tidy-data.pdf
-
Knight Center Courses. 15 de octubre de 2019. Video: Preparación de los datos – Limpiando datos con Google Sheets. (en) https://www.youtube.com/watch?v=YnN2kUWIr48