Sí. Digo que la Plataforma de Contratación del Sector Público es un 💩coprolito y lo sostengo con datos 😃.

Vamos a verlo 👇.
Pongamos un ejemplo tonto. Algo fácil. Digamos que quiero obtener todas las adjudicaciones a Europa Press.

Chupado, ¿verdad? Image
Pues no. Porque cada entidad escribe los datos como le da la gana. Europa Press consta de cinco formas distintas:

1⃣ EUROPA PRESS DELEGACIONES
2⃣ EUROPA PRESS DELEGACIONES S.A.
3⃣ EUROPA PRESS DELEGACIONES, S.A.
4⃣ Europa Press Delegaciones, SA
5⃣ EUROPAPRESS DELEGACIONES, S.A.
Es decir, no existe —o no se aplica— una forma normalizada de registrar los nombres de los contratistas. En cada aldea española se escriben de una manera… o de varias.

Si buscas los contratos de «José María Fernández» no encontrarás los de José Mª Fernández.

😃🔫
Pero… ¡un momento! Para algo existen los NIF, ¿no?

El NIF es un identificador unívoco. Podemos utilizarlo para localizar sin ambigüedad a cualquier contratista, sea empresa o persona física 😃.

Busquemos por NIF y… ¡problema resuelto!
Echando mano de Google encuentro rápido el NIF de «EUROPA PRESS DELEGACIONES, S.A.». Es este: A41606534. Busco todos los contratos adjudicados a este NIF, y listo. ¡Pan comido! Ya lo tenemos. Que corra el champán.

NO.
No, porque en los datos del Estado, los contratos adjudicados a la empresa de nuestro ejemplo aparecen repartidos entre siete NIF diferentes. ¡7⃣!

Uno bien y seis mal:

❌ 40285560W
❌ A-41606534
❌ A01017552
❌ A041606534
❌ A40616534
✅ A41606534
❌ A41606594 Image
Es un misterio cómo es posible que un NIF —que es un identificador provisto por diseño de un dígito de control— se consigne erróneamente en una base de datos oficial sin que salte ninguna validación en el momento de la introducción del dato 🤦‍♂️.
También es un misterio cómo han podido atribuir un DNI —el NIF de una persona física— a una sociedad anónima. Que es lo que ha pasado en el primer caso de la lista del tuit anterior. El NIF consignado es de una persona que se llama Joan, no el del contratista de nuestra pesquisa.
La realidad es dramática: las adjudicaciones al contratista de nuestro ejemplo están repartidas entre siete entidades diferentes, solo una de las cuales es correcta. Y en 2022 no parece que exista un localizador unívoco confiable para identificar a los contratistas del Estado.
Así que hay que aplicar el ingenio. Una opción, quizá, sea agrupar los contratistas en clústeres según la similitud de su nombre y luego validar todos los NIF y aplicar el algoritmo de distancia de Levenshtein a cada NIF para encontrar y corregir las erratas. Hay que pensarlo. Image
Mi intención, qué remedio, es diseñar mi herramienta para que sea resiliente ante datos erróneos. Pero un buscador tendría que ser determinista, y ahora cualquier operación con los datos oficiales sucede en el territorio de la probabilídad: «parece que este es el dato correcto».
Afortunadamente tengo reciente todo lo que aprendí haciendo esto mismo a escala autonómica con los datos de Cantabria… Donde pude automatizar la aplicación de soluciones y el resultado fue bastante bueno.
Y es que seguramente esto se llama «minería de datos» porque te pasas el día en el subsuelo, enfangado, tratando de sacar brillo a coprolitos… ⛏️

¡Pero sigo 🥳!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Jaime Gómez-Obregón

Jaime Gómez-Obregón Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @JaimeObregon

Jan 16,
Una pregunta para los abogados especialistas en contratación pública e interventores que puedan estar leyendo… En esta licitación parece que han confundido el objeto del contrato con el órgano que contrata…

¿Es correcto o se han columpiado?

🔗 contrataciondelestado.es/wps/portal/!ut… Image
¿Puede ser que el órgano de contratación sea una entidad «ad hoc» dependiente del Concejo de Zicur Menor, expresamente constituida y denominada para la contratación de este concreto servicio de limpieza?
El asunto parece originarse en Navarra. Pero en el portal autonómico existe un campo que en el estatal no consta: el convocante.

🔗 hacienda.navarra.es/sicpportal/mto… Image
Read 5 tweets
Jan 3,
La administración saca pliegos para contratos públicos y las empresas presentan sus ofertas. Que muchas veces son puntuadas mediante fórmulas aritméticas, ganando el que más puntos obtiene 🎉.

En esta licitación, por ejemplo, las mejoras valen el 90% y el plazo, un 10% 👇.
Pero luego te viene el Ayuntamiento de Barcheta y mete los datos así 😱:

— 9999999999,99% el precio
— 999999999,99% las mejoras
— 999999999,99% el tiempo de respuesta
— 9999999,99% la garantía

Helo aquí (en la sección «Pliegos»): contrataciondelestado.es/wps/poc?uri=de…
El portal de contratación del Estado es pura chatarra. Está hecho para que si buscas, no encuentres. Ya me sé la historia… la aprendí con el Gobierno de @cantabriaes.

Ando cocinando la misma receta: arramplar con los datos, tirar el portal a la basura, y hacer uno nuevo bien™️.
Read 6 tweets
Sep 6, 2021
⚠️ Abro un hilo #hacker importante… ⚠️

Para contaros lo mío con la transparencia del Gobierno de 🇵🇱@Cantabriaes. Escribo todo esto porque estoy convencido de que es sano para el país y para la democracia que haya sucedido. Y QUE SE SEPA.

Todo empezó durante el confinamiento…
Encerrado en casa sin mucho que hacer, me puse a zascandilear por el portal de transparencia. Y llegué a la sección donde se «publican» (o eso creía…) los contratos que adjudica el gobierno. Esperaba encontrar una tabla descargable. Pero no.

Lo que había me pareció INDIGNANTE.
👉 ¡No se puede buscar por adjudicatario!
👉 ¡No se pueden descargar todos los datos!
👉 ¡Los resultados aparecen de cinco en cinco!
👉 ¡Hay que transcribir un código una y otra vez!
👉 ¡Está hecho de tal forma que nada sale en Google!

¡¡¡PERO ESTO QUÉ ES!!! 😱
Read 63 tweets
Sep 6, 2021
Dobré ráno, @VeraJourova 👋!

As Vice-President for Values and Transparency of the European Comission, you are undoubtely aware of the importance of the company registers data to prevent fraud, fight against corruption and bring transparency to public tenders.

Many in Spain too.
On Friday you will meet with the Minister of Justice of Spain, @pilar_llop.

👉 Please, do express the Minister your interest in the situation of this public data in the country.
✅ While on your 🇨🇿Czech Republic the data and documents from the register are open and freely accessible via or.justice.cz

🚫 In 🇪🇸Spain the access model to the register remains unchanged since the 70s and there is no way to freely access the full public records.
Read 5 tweets
Sep 4, 2021
He encontrado este pobre animalillo en el asfalto. Parece aturdido. Le he llevado a mejor sitio.

Te deseo lo mejor, amigo.
Creo que es un mosquitero común. He leído que es un ave migratoria frecuente en la península. Crían en el norte y al final del verano se desplazan grandes distancias hacia el sur. Más allá del desierto. A África.

Lo encontré en un aparcamiento. Lo tomé. No opuso resistencia. Image
No parecía enfermo. Quizá estaba extenuado. Es muy pequeño; no llega a diez centímetros. He leído que pesa siete u ocho gramos.

Con ese gálibo y unas patitas de alambre, cruza volando el continente dos veces al año. Yo cojo el coche para ir al supermercado. Image
Read 8 tweets
Aug 31, 2021
¡Hola, @karlos346! Es verdad: la lista de Centros de Reconocimiento de Conductores que publica la @DGTes es muy cutre. Es un PDF de 424 páginas con muchos defectos de maquetación. Voy a escribir un hilo mientras cacharreo con el documento. ¡Seguro que lo leen y lo mejoran!

🧵…
Al documento se accede yendo a la sección de Centros Colaboradores de la DGT y haciendo clic en «Centros de Reconocimiento de Conductores». Es aquí: dgt.es/es/seguridad-v…

Desde ahí aparece un enlace directo para la descarga del fichero: dgt.es/Galerias/segur…
El documento es una simple lista de centros. Pero muy extensa: +400 páginas. Mi primera impresión ha sido pensar que se trata de una exportación a PDF desde una base de datos. Quizá tienen los datos en una aplicación interna, inaccesible desde internet, y necesitan publicarlos…
Read 21 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(