Jaime Gómez-Obregón Profile picture
Ingeniero hackeando para mejorar la Administración pública. Ayúdame a seguir 👉 https://t.co/QkIuB8saBA

Aug 31, 2021, 21 tweets

¡Hola, @karlos346! Es verdad: la lista de Centros de Reconocimiento de Conductores que publica la @DGTes es muy cutre. Es un PDF de 424 páginas con muchos defectos de maquetación. Voy a escribir un hilo mientras cacharreo con el documento. ¡Seguro que lo leen y lo mejoran!

🧵…

Al documento se accede yendo a la sección de Centros Colaboradores de la DGT y haciendo clic en «Centros de Reconocimiento de Conductores». Es aquí: dgt.es/es/seguridad-v…

Desde ahí aparece un enlace directo para la descarga del fichero: dgt.es/Galerias/segur…

El documento es una simple lista de centros. Pero muy extensa: +400 páginas. Mi primera impresión ha sido pensar que se trata de una exportación a PDF desde una base de datos. Quizá tienen los datos en una aplicación interna, inaccesible desde internet, y necesitan publicarlos…

O quizá el misterioso PDF lo han generado imprimiendo como PDF algún sitio web. No necesariamente un sitio público… la fuente original podría ser una intranet de la DGT. U otro sistema de información interno similar.

Pero espera… ¡el documento está mal paginado! 🤔

Viendo los metadatos del documento observo que ha sido creado por Fulanito con Microsoft Word 2010 ⚠️. Uy… eso es una pista importante para entender qué está pasando. Porque entenderlo es ya una cuestión de honor personal 😂.

¡Hay que llegar hasta el final de este misterio 😃!

El documento tiene páginas, muchas, que por su regularidad parecen maquetadas por una máquina. Y otras, no tantas, que están claramente maquetadas por una persona luchando contra la máquina.

Spoiler: la máquina va ganando.

Solo a DGT sabe qué verdadera historia encierra este misterioso códice. La DGT y el Monstruo de Espagueti Volador, en su infinita omnisciencia. El resto, meros mortales, solo podemos lanzar cábalas. Aventurar conjeturas.

Estoy convencido de que en la DGT existe una base de datos con todos esos centros. Quizá en algún momento del pasado alguien la exportó. Y acabó en el Word de Fulanito, que desde entonces mantiene el listado público haciendo los cambios directamente con el procesador de texto.

🛑 Pero espera… ¿por qué algunos textos se pixelan al ampliar el documento? Sabemos que las fuentes del texto del documento son vectoriales; no pierden calidad al hacer «zoom». Pero en algunas páginas las letras aparecen borrosas al verlas de cerca.

Como diría Homer… ¡Mosquis!

En mi navaja suiza llevo siempre pdfimages, la utilidad Unix de línea de comandos para extraer las imágenes de un documento PDF. Es software libre; viene con los paquetes poppler-utils y xpdf-utils en muchas distribuciones de Linux.

Al extraer las imágenes del documento se descubre el pastel 🤣. El documento es una mezcla de registros probablemente extraídos de un sistema de información, textos editados a mano y…

[redoble_de_tambores.mp3]

¡Capturas de pantalla pegadas a pelo! 😬

Esto es súper cutre. Y muy desaconsejable por una miríada de razones. La principal quizá sea esta: que dentro del texto contenido en dichas capturas el ciudadano no puede buscar. Es texto opaco a la función de búsqueda de tu visor de documentos favorito.

Anécdota de abuelo cebolleta: hace unos años a menudo me encontraba que los listados de adjudicaciones de contratos menores que el gobierno publicaba en el @BOCantabria eran imágenes escaneadas. Imposibles de encontrar, por tanto, buscando el contratista en el Boletín.

Pero volvamos a la DGT y su documento. Aunque no conocemos la intrahistoria, todo parece apuntar a un problema de fondo: están publicando en formato PDF una relación de centros cuya naturaleza es, en realidad, una información tabulada. Una tabla.

Una tabla que habría de tener tantas filas como centros. Y tantas columnas como datos disponen de cada uno: nombre, dirección, teléfono, correo…

Sería mucho más correcto publicar el documento como un fichero tabulado en un formato abierto: ODS (OpenDocument) o CSV, por ejemplo.

Así sería legible por cualquier ciudadano utilizando el método de su elección: LibreOffice Calc, Vim, telnet o incluso Microsoft Excel. Oh, Excel. Alfa y omega de la informática corporativa. Me he permitido componer este óleo sobre lienzo a partir de una conocida tira de xkcd 🤣.

Los usuarios de Emacs tras leer el tuit anterior 🤣…

¡No worries, hermanos de Emacs! Era una broma. Aceptamos Emacs como editor de texto 🤗. Y Lisp como lenguaje de programación. ¡Por una informática diversa e inclusiva! Tolerante a las diferentes sensibilidades de editor. ☮️✌️

Se me fue la olla; ya regresa.

👉 En la DGT hay alguien trabajando con Word un documento de +400 páginas a base de hacer macramé con capturas de pantalla y un puzle de maquetaciones imposibles. Esa persona está haciendo lo mejor que puede algo imposible.

Probablemente hace capturas de pantalla de otra fuente y luego las pega en Word (2010 😅). Allí las posiciona cuidadosamente sobre la página correspondiente del documento. Pero al modificar una página se le mueven todas las posteriores, porque el flujo del documento cambia 😱.

Seguro que algún buen técnico de la gerencia de informática de la @DGTes le puede echar una mano a esta persona. Y liberarla de la tortura que está padeciendo. Así, además, el documento publicado sería más útil a los ciudadanos que el actual PDF del infierno.

Y es que la Administración amish tiene querencia por los PDF. Desde el movimiento pro datos abiertos («open data») hemos hablado muchas veces de las limitaciones de este formato como contenedor de datos públicos.

Seguro que en la @DGTes lo saben y arreglan este pequeño lío 😊.

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling