Hace unos días explicaba cómo descargar la Base de Datos Nacional de Subvenciones, sorteando los obstáculos del portal del Ministerio de Hacienda que dificultan el acceso a los datos.
👇 A continuación comparto cómo trabajar estos datos.
La base de datos contiene registros tanto de empresas, fundaciones, partidos… como de personas.
✅ De las subvenciones a empresas vamos a escudriñar hasta el último átomo.
❌ A las personas y sus circunstancias las vamos a proteger disociando y anonimizando sus datos.
Si bien el servidor de Hacienda nos devuelve los datos en forma JSON, en el hilo anterior opté por transformarlos a un formato tabular y más compacto: CSV.
Para trabajar este formato emplearé una popular herramienta de línea de comandos: CSVkit
🔗 csvkit.readthedocs.io
El NIF de una persona jurídica española está formado por una letra indicativa de su naturaleza¹ seguida de siete cifras y un dígito de control, que puede ser un guarismo o una letra de la A a la J.²
____
¹ boe.es/buscar/act.php…
² ¿Alguien qué norma oficial describe su cómputo?
💡 Vamos a apalancarnos en este patrón para separar las subvenciones a empresas y entidades de las subvenciones a personas.
👍 Obtenemos así 3,82 millones de subvenciones a entidades.
Ahora es trivial extraer el nombre del beneficiario —décima columna— y ordenarlos por frecuencia.
¡Allá vamos! 👇
Obtenemos así las organizaciones que más subvenciones parecen haber recibido, que son:
🥇 El Consejo Superior de Investigaciones Científicas
🥈 La Cruz Roja
🥉 Las universidades públicas
🎖️ La Diputación de Almería
…
También podemos reunir todo en un solo comando y reducir el análisis exclusivamente a las sociedades anónimas y limitadas, que son aquellos beneficiarios cuyo NIF comienza por las letras A y B respectivamente.
Esto arroja las empresas españolas que más veces aparecen en la BDNS como concesionarias de subvenciones públicas. De un vistazo rápido, parecen empresas de producción agrícola, de servicios, Telefónica, un hotel en Bilbao, Iberia…
👇 La primera columna es el número de ayudas.
⚠️ ¡Cuidado! Hasta aquí, esto es solo una curiosidad estadística. No extraigamos aún rápidas pero erróneas conclusiones cuñadas de estos primeros resultados.
Hay que entrar al detalle y ahondar más en los datos antes de extraer conclusiones significativas.
He subido los datos a GitHub. Propongo juntar muchos cerebros y hacer algo creativo para auditar a nuestros gestores públicos:
🤓 Programadores
📈 Analistas de datos
✍️ Periodistas
💅 Diseñadores
👨👩👦 …
Y demostrar el valor de los datos abiertos. 🚀
github.com/JaimeObregon/s…
Share this Scrolly Tale with your friends.
A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.