¿Dónde Encontrar Los Mejores Datasets (Datos Abiertos) En Español?

Daniel Morales
Nov 27, 2020


Como data scientists nos hemos acostumbrado a trabajar con datasets tales como el del Titanic, o el dataset del Iris, o de las casas de Boston en EEUU (Boston Houses). Como ven se trata de algo muy “gringo” y que muchas veces no se adapta a nuestra realidad. Esto, obviamente, no tiene nada de malo, casi siempre aprendemos data science y machine learning con material que nos llega desde los países anglo-parlantes, pero nuestro trabajo ahora es adaptar el conocimiento que tenemos a la realidad que nos rodea. 

Por otro lado, las empresas y los gobiernos cada día están adoptando políticas más abiertas hacia los datos, y últimamente se ha hablado mucho sobre los “Datos abiertos”. Citando textualmente Wikipedia, se trata de lo siguiente:

“El concepto datos abiertos (open data, en inglés) es una filosofía y práctica que persigue que determinados tipos de datos estén disponibles de forma libre para todo el mundo, sin restricciones de derechos de autor, de patentes o de otros mecanismos de control. Tiene una ética similar a otros movimientos y comunidades abiertos, como el software libre, el código abierto (open source, en inglés) y el acceso libre (open access, en inglés).”

Pues bien, me he dado a la tarea de buscar los sitios de datos abiertos de los gobiernos de los países de América Latina y esto es lo que me he encontrado. Todas estas políticas de datos abiertos se han dado debido a que la información y la transparencia beneficia a la democracia y la rendición de cuentas por parte de las autoridades. El objetivo de estas herramientas es que las personas tengan acceso a la información en base a la cual los gobiernos toman decisiones para las políticas públicas y que también, los científicos de datos (y cualquier persona), los puedan utilizar para sus propias investigaciones e intereses. Por ejemplo, para construir aplicaciones y conducir análisis.

Espero que puedas aprovecharlos, empezar a jugar con ellos, hacer ejemplos y proyectos con ellos, y quizás descubrir y demostrar hallazgos interesantes sobre ellos a tus colegas, amigos, jefes o incluso gobiernos!

Moraleja: ¡no dependamos siempre de los datos de países anglo!


1- México


Aquí podrás encontrar los datos abiertos del gobierno de México. Podrás encontrar datos por sectores, tales como cultura y turismo, desarrollo, economía, educación, energía y medio ambiente, finanzas y contrataciones, y muchos más. Esta plataforma permite conectarse también a datos en tiempo real por medio de APIs, y en otros tendrás la posibilidad de descargar los datos históricos y estáticos en diferentes formatos, tales como JSON, XML o CSV. 

Los casos de uso que pueden surgir a partir de estos datos son interminables, y puedes elegir entre las áreas que más te interesen. Por ejemplo, si lo tuyo es la economía puedes hacer todo tipo de análisis sobre indicadores de empleo, de pobreza, de productividad y más. 

Esta plataforma tiene 9.311 datasets. Algo muy interesante para los data scientists mexicanos, quienes pueden acceder gratuitamente a esta información y jugar con la data en la forma que lo deseen!

Aqui podrás encontrar el acceso: https://datos.gob.mx/



2- Colombia


Aquí podrás encontrar los datos abiertos del gobierno de Colombia. Según la misma plataforma se ha realizado esta iniciativa con el fin de “Investigar, desarrollar aplicaciones, crear visualización e historias con los datos”. Más de 1.175 entidades han publicado diferentes sets de datos. Esta plataforma tiene más de 10.000 datasets! 

La plataforma permite que la comunidad también cargue datasets siguiendo con unos lineamientos predeterminados, y tiene una subdivisión entre los datos creados de forma oficial, y los creados por la comunidad. Están divididos en diferentes categorías, pero los principales son: 


Aqui podrás encontrar el acceso: https://www.datos.gov.co/


Si has desarrollado algún producto, con base de alguno de estos datasets, también puedes compartirlo con el gobierno postulando tu uso de datos abiertos, o puedes visualizar lo que han postulado otros participantes

Esta plataforma actualmente tiene un proyecto piloto llamado Data Sandbox, el cual es un es un espacio colaborativo para las entidades públicas del país, en donde se podrán realizar diferentes proyectos piloto de Analítica y Big Data. Una muestra de que los gobiernos están apostando fuerte por este tipo de iniciativas. 



3- Perú


Por el lado peruano también nos encontramos una plataforma de datos abiertos del gobierno nacional, una plataforma con 4.889 datasets y divididos por diferentes categorías tales como:
 

Como ven, un alto número de datos disponibles para experimentar y analizar en detalle. 

Aquí los diferentes ministerios se encargan de publicar los datos, en diferentes formatos, y hacerlos accesibles a todo público. 

La información del sitio está dividida por “Recursos”, “Dataset” y otros, dentro de los cuales los recursos son por lo general archivos .zip con diferentes formatos en los datos o análisis, mientras que los datasets son formatos Excel o CSV. Sin duda una fuente de datos inagotable para seguir aprendiendo y experimentando con data science!

Aquí podrás encontrar el acceso: https://www.datosabiertos.gob.pe/






4- Chile


En la plataforma de datos abiertos del gobierno de chile podrás encontrar conjuntos de información pública del gobierno de manera fácil. Para ello, en algunos casos, la información está publicada en más de un formato.

Este sitio contiene un buscador y catálogos con diversas categorías para ayudar la búsqueda de la información. También se puede encontrar información georeferenciada y archivos de imágenes. Algunos de estos datos ya están disponibles en diversos sitios de gobierno pero www.datos.gob.cl los reúne en un solo sitio web donde se pueden realizar búsquedas.


En esta plataforma podrás encontrar más de 4.000 datasets, 525 organizaciones que han subido datos, y podrás filtrar por 23 categorías diferentes. Dentro de las categorías con más datos están:


Casi todos los datasets se encuentran en formato XLSX y CSV lo cual es muy conveniente para nosotros como científicos de datos. 

Podrás acceder aqui: https://datos.gob.cl/




5- Argentina



Argentina también tiene su propia plataforma de datos abiertos donde se pone al alcance de los usuarios datos públicos en formatos abiertos para que nosotros podamos usarlos, modificarlos y compartirlos, y el objetivo como siempre es hacer visualizaciones, aplicaciones y herramientas con ellos.

El sitio tiene 998 datasets a la fecha, y 33 organizaciones han aportado al crecimiento de esta plataforma. También se puede acceder por diferentes categorías entre las más populares son: 


Algo interesante que he encontrado en este sitio es la posibilidad de conectarse también por medio de APIs y un repositorio en github en la cual hay diferentes paquetes y análisis que puedes investigar más a profundidad.

Dentro de las APIs puedes acceder a:

  • API georef: para normalizar unidades territoriales, provincias,departamentos, municipios y calles.
  • Series de Tiempo: permite consultar indicadores con evolución en el tiempo, de forma personalizada y actualizada.
  • CKAN: permite la organización de los datos publicados a través de su esquema de conjuntos de datos y recursos, así como el acceso programático a éstos, aplicando estándares aprobados internacionalmente para la generación de metadatos

Accede a la plataforma al siguiente enlace: https://datos.gob.ar/




Por Ciudades


Debido al auge de los datos abiertos en los gobiernos a nivel mundial, y a que muchas veces los datos cobran mayor relevancia según la ciudad, las diferentes alcaldías de las diferentes ciudades más importantes de cada país se han dado a la tarea de crear open data para ellos. 

Así es como tenemos las siguientes menciones especiales a sitios de datos abiertos por ciudad. Si no encuentras tu ciudad aquí, puedes hacer una busqueda en Google, quizás también tengan en tu ciudad!



Conclusion


Ya no hay excusa para seguir trabajando siempre con los datos del Titanic o con las casas de Boston, tienes un montón de datos en tu país o incluso en tu ciudad de origen donde puedes practicar tus habilidades de Python y data science, e incluso de visualizaciones de datos. Puedes incluso atreverte a construir aplicaciones más elaboradas, o hasta presentarlas a los gobernantes. 

Una buena estrategia a seguir es construir algún proyecto de data science, montarlo en la web y luego enviarlo a quienes publicaron los datasets en alguna de estas plataformas gubernamentales. Es una buena forma de mostrar tus habilidades y de crear un portafolio. 


¡Nos leemos en una próxima!

“¿Dónde Encontrar Los Mejores Datasets (Datos Abiertos) En Español?”
– Daniel Morales twitter social icon Tweet

Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar
divider graphic

Artículos Relacionados

Construyendo Un Modelo De Regresión Lineal Que Prediga El Gasto De Un Cliente De Un Comercio

Crearemos un proyecto completo tratando de predecir los gastos de los clientes mediante una regresión lineal con Python. En este ejercicio, tenemos...

Daniel Morales
Por Daniel Morales
Jan 15, 2021

21 Recursos Para Aprender Matemáticas Para Data Science

Este es quizás uno de los mayores temores de quienes se inician en el área de data science, aprender/repasar matemáticas. Y es que seamos sinceros,...

Daniel Morales
Por Daniel Morales

Plan De Estudios Para Aprender Data Science En Los Próximos 12 Meses

Cómo habíamos hablado en un post anterior, estamos terminando 2020 y es hora de hacer planes para el próximo año, y uno de los planes y preguntas m...

Daniel Morales
Por Daniel Morales
Partners

graphical divider
Icon

Únete a nuestra comunidad privada en Slack

Manténgase al día participando de ésta gran comunidad de data scientists en latinoamérica. Hablamos sobre los retos, proyectos y competiciones en data science, trabajos en data science, cómo practicar las habilidades, qué podemos aprender y mucho más!

 
Te enviaremos un link de invitación a tu email inmediatamente.
arrow-up icon