Hoy he dedicado mi día a perfeccionar el método de extracción del NIF de los contratistas que encuentro en los datos oficiales. A priori parece fácil. Basta con utilizar el dígito de control (o la letra) para comprobar la validez de cada NIF.
Chupado, ¿verdad? Pues no.
El problema es bastante más complejo. Y, algorítmicamente, muy interesante.
La primera vuelta de tuerca viene cuando el funcionario aplica la imaginación a la hora de escribir el NIF en el expediente. Pero tiene fácil solución 🎉.
Pero con tantísimos contratos públicos, tarde o temprano te encuentras con casos más exóticos, como estos de la imagen. Porque las herramientas informáticas de algunas administraciones no validan los datos al introducirlos, así que pueden escribir cualquier cosa…
Una fiesta.
Algunos contratos tienen lotes y varios adjudicatarios. ¡No problemo! Se añaden al expediente tantos como sea necesario, ¿no?
Pues tampoco. En la práctica, a veces encuentro que meten TODOS los adjudicatarios como si fueran uno solo. EN EL MISMO CAMPO. Y tengo que separarlos…
Lógicamente no hago nada manualmente. Sería imposible. He escrito un programa y lo aplico a los 3,2 millones de expedientes.
En uno me he topado con esto. Es un caso excepcional, muy extraño; y que puede inducir fácilmente a error. Por eso lleva tanto tiempo hacerlo bien™️.
Ahora viene la segunda derivada: los contratistas extranjeros. Si ya tiene tela detectar un NIF español, solo en la 🇪🇺UE hay 27 formatos más.
Una primera opción es hacer una detección formal. Es decir, detectarlos por su forma. Mediante expresiones regulares queda así. 👇
Un segundo paso es aplicar el algoritmo de cálculo del dígito de control. Pero… ¿dónde está definido el algoritmo oficial que usa cada país? 🔍
Spoiler: algunos países no utilizan algoritmo alguno… Y en otros hay dígitos que son simplemente aleatorios.
La cosa puede complicarse todo lo que queramos. Veamos, por ejemplo, este contrato del Ayuntamiento de Cullera.
¡Al NIF del contratista le falta un dígito! Podríamos darlo por perdido pero… ¿y si es justo la pyme del cuñado del alcalde? 🤣
Una solución es aplicar el algoritmo inverso y calcular el dígito faltante. Así podemos corregir unos cuantos miles de contratos que, si no, no podrían cruzarse con otras fuentes de datos.
🚫 B9699103 👈 Lo que publica el Estado… (incorrecto)
✅ B96991039 👈 El NIF corregido
Esto es solo una pincelada de la complejidad que puede alcanzar resolver un problema que no debería haberse creado. Porque si no se validan los datos en el momento de su introducción, arreglarlo luego puede ser imposible. Y al sistema llega todo tipo de chatarra inútil como esta.
Como siempre, muchísimas gracias a mis patronos ❤️, que es quienes hacen posible que pueda poner mis magulladas neuronas a resolver esto. Que servirá para que pronto todos tengamos una nueva herramienta digital que dará más transparencia a los concursos y al dinero público. 🙏
• • •
Missing some Tweet in this thread? You can try to
force a refresh
He estudiado más de cien «amazon locales» puestos en marcha con dinero público. He intentado visibilizar las conclusiones en artículos como este. Sin mucho éxito, parece. 👇
👆 Mi artículo en el enlace del tuit de arriba contiene muchos enlaces a los amenos hilos de Twitter donde he ido destripando cada problema y proponiendo soluciones.
👇 Aquí en castellano, también con abundantes enlaces a mis investigaciones:
📈 Para mí es importante que nadie tenga que confiar en «mis» datos. ¡No son míos! Yo los extraigo de fuentes oficiales. Con sacacorchos, porque lo ponen difícil. Por eso acabo de añadir a mi herramienta algo imprescindible: el enlace de cada dato en las memorias del Gobierno. 😊
Creo que esto servirá para que mucha gente pueda buscar en mi herramienta fácilmente (¡y de forma divertida!) los datos de su interés. Y luego ir a tiro hecho a la infumable «fuente primaria» del Gobierno (PDF de más de 200 páginas) para confirmar la veracidad de los datos.
Creo que esto será útil…
✅ A la ciudadanía, para entender mejor su país.
✅ A los parlamentarios, para controlar mejor al Gobierno y detectar chanchullos.
✅ A los periodistas, para vigilar el reparto equitativo del dinero público.
🔴 La Ley 6/2010 de Publicidad y Comunicación de #Euskadi indica que el Gobierno Vasco tiene que remitir anualmente al Parlamento una memoria con el reparto del dinero público a los medios de comunicación.
Pero esas memorias tienen errores.
Por ejemplo: 👇
El Gobierno entrega los datos en un PDF que impide:
👉 A los diputados, controlar eficazmente el gasto del Gobierno.
👉 A la ciudadanía, entender cómo se reparte el dinero público.
👉 A los periodistas, comprobar si se cumplen las leyes.
¡Esto no puede ser!
📰 La última de estas memorias, del año 2022, acaba de ser publicada este mismo viernes.
Alguien en el Gobierno Vasco las escribe con Microsoft Word partiendo, parece, de una plantilla de 2017.
— Esto es sumamente ineficiente.
— Y produce un PDF que no da #transparencia real.
No tengo claro que ser la ciudad más subsidiada de España sea motivo de celebración. Quiero pensar que la métrica del éxito es otra. Pero he estudiado cien iniciativas similares a la suya y encuentro un denominador común: fracasan.
Este triunfal anuncio es compatible con un cuadro agudo de subvencionitis. Una pandemia que está causando estragos en alcaldes y concejales de toda bandera. El delirio: intentar salvar el comercio local con un «Amazon» municipal.
El virus lo inocula el Estado canalizando una línea de subvenciones con fondos europeos. Las entidades locales concurren porque hay dinero de Europa. Es la solución a la búsqueda de un problema. Y a alguien se le enciende la bombilla: un «marketplace». 🎉