Uno de los retos a que me enfrento en mi trabajo tecnológico destripando millones de datos procedentes de boletines oficiales, es el clásico problema de vincular registros o «record linkage».

📕 en.wikipedia.org/wiki/Record_li…
Hay muchas aproximaciones a este viejo problema; muchos «papers» casi científicos, mucha bibliografía, un ejército de librerías y algunos servicios en la nube.

El problema es informáticamente interesante. Voy a explicarlo con un ejemplo real al que me enfrento en el BORME. 👇
Estas tres direcciones son, en realidad, la misma:

1⃣ Calle Avenir, 35, Planta 6, Puerta 2 de Barcelona
2⃣ CL L'AVENIR NUM.35 P.6 PTA.2 (BARCELONA).
3⃣ Carrer de l'Avenir, 35, 6ª, P. 2. 08021 Barcelona

Pero en el BORME aparecen escritas de forma muy diferente.
Del Boletín he extraído un total de 1.639.903 direcciones. Son todas informáticamente distintas —son cadenas de caracteres todas ellas diferentes entre sí—, pero algunas de ellas aluden a exactamente la misma dirección postal real. Y necesito saber cuáles.
Es como tener un puzle con 1,6 millones de piezas, y tener que agrupar todas las que se parecen mucho entre sí. Solo que el criterio de semejanza no es evidente, sino conceptual.

A esto es a lo que me enfrento yo estos días. 😅
Desde luego no es viable comparar cadenas de texto, porque «avinguda» y «etorbidea» son lo mismo («avenida»), pero su representación textual no se asemeja.

La solución pasa por buscar una nueva forma de representación de las direcciones, enriquecida con «semántica».
UN PARÉNTESIS.

Por favor, toma aire y cuenta hasta diez antes de dejar un comentario diciendo que has leído en una revista de la peluquería que esto se resuelve fácil con AI 😅🔫 (o con blockchain 😂).

Sí. Pero no.
Es un problema más complejo de lo que parece a primera vista. Y como tantas cosas en ciencia de datos, hay que afrontarlo desde una perspectiva probabilística: aceptemos que se podrán normalizar automáticamente muchas direcciones, pero otras no será posible.
Una solución simple es externalizar el problema. Google tiene un fabuloso servicio de geocodificación de direcciones. Tiene un coste de $4 por cada mil de ellas, así que por 5.500 € tendría el problema prácticamente resuelto en pocas horas.

🔗 developers.google.com/maps/documenta…
Este tipo de servicios estructuran una dirección en sus componentes y devuelven una forma normalizada.

Le das esto…
👉 CL L'AVENIR NUM.35 P.6 PTA.2 (BARCELONA).

…y te devuelve —entre otras cosas— esto:
👉 Carrer de l'Avenir, 35, P.6 PTA.2, 08021 Barcelona, España

Súper útil.
Pero mi espíritu geek no estaría muy orgulloso de esa solución. Como ingeniero, me parece más eficiente utilizar ese recurso solo para aquellas direcciones que no consiga componentizar con un método propio.

Además, las direcciones no son el único dato que necesito procesar así…
Sucede parecido con los nombres. Estos dos nombres son el mismo:

— BIOSCA I VIVES Mª CARMEN
— María del Carmen Biosca Vives.

Nótese que difieren en el orden de nombre y apellidos; en la conjunción «i», en la abreviatura de «María» y en la capitalización. Pero son lo mismo.
Este último caso, el de los nombres, lo he estado trabajando en las últimas semanas y he llegado a una solución razonablemente buena. Como tengo 2,8 millones de nombres, he necesitado hacerlo sin depender de servicios externos. Todavía tengo que refinarlo y terminar de aplicarlo.
Otro ejemplo son los roles que una persona puede tomar en una sociedad mercantil. Los registradores los escriben abreviados, y he recopilado más de mil abreviaturas distintas.

Algunas son fáciles, como «Dir. General». Pero el BORME recoge otras crípticas como «M. CMS. E. IN. C».
Sin duda, lo más eficaz sería que los datos publicados estuvieran en origen ya en su forma normalizada. Y que de cada interviniente en un acto mercantil se publicara un identificador unívoco tal como el NIF.

Esto no es posible por varias razones, sin embargo.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Jaime Gómez-Obregón

Jaime Gómez-Obregón Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @JaimeObregon

7 Oct
1⃣ Parece una calle cualquiera, pero el número 35 del Carrer de l'Avenir de Barcelona —concretamente la 2ª puerta de la planta 6ª— es el domicilio más mencionado en el Boletín Oficial del Registro Mercantil (BORME) durante los últimos 20 años. Sale en 2.196 ocasiones.

¿Por qué?
Es la sede de SociQuick, una empresa que constituye y comercializa sociedades mercantiles. Una actividad legal que parece surgir al calor de la burocracia: constituir una empresa en España lleva varias semanas; pero comprar una ya constituida, solo unas pocas horas.
Según el informe «Doing Business» que elabora el Banco Mundial, España está en el puesto 97º del ranking global de facilidad para empezar un negocio. Es por ello que el domicilio más veces publicado en el BORME es de una «fábrica de empresas».

🔗 espanol.doingbusiness.org/es/data/explor…
Read 16 tweets
6 Oct
Por curiosidad, hoy le pregunté a mi 🤖 robot come-bormes cuáles son los domicilios sociales con más movimiento en el BORME en lo que va de año.

Las direcciones que más salen en el Boletín Oficial del Registro Mercantil, vamos. Ocho de las diez están en Madrid.

Son estas. 👇
Una dirección aparece en el BORME esencialmente cuando en ella se constituye una nueva empresa, o cuando una empresa ya existente cambia su domicilio allí.

El domicilio social no tiene necesariamente por qué coincidir con el lugar donde la empresa realiza su actividad.
1⃣ Ostenta el récord la planta 11ª del Paseo de la Castellana, 91. Esta dirección aparece 202 veces en lo que va de año. Parece un moderno centro de negocios. Leo que se puede domiciliar una sociedad ahí desde 39 €/mes.

castellana91.es/servicios-para…
Read 12 tweets
4 Oct
Recoge el sitio web del Ministerio de Justicia que la función primordial del Registro Mercantil es *dar publicidad* a los actos de las empresas para que puedan ser conocidos por otros comerciantes.

Dar publicidad.

🔗 mjusticia.gob.es/cs/Satellite/P…
En España hay más de tres millones de empresarios. La gran mayoría son autónomos o tienen microempresas con muy pocos trabajadores.

Y los empresarios comercian. Compran y venden. Y el comercio genera riqueza y bienestar. Pero necesita también seguridad, certidumbre.
Si eres un político, sigue leyendo. Aquí tienes una idea para facilitarle la vida a 3.337.646 votantes. Es cierto que igual incomoda temporalmente a unos 1.100 registradores.

Se trata de darle una vuelta a un modelo arancelario que data de 1956. 👇

🔗 boe.es/datos/pdfs/BOE…
Read 18 tweets
3 Oct
Acabo de retuitear un hilo del Colegio de Registradores (@Registrador_R) donde explican en qué consiste el Registro Mercantil. Quiero agradecerles el hilo y la eficacia con la que responden en Twitter. Un diez.

Pero también quiero contar mi experiencia con el Registro español.👇
Sin querer restar valor al Registro Mercantil, sucede que podría ser mucho más transparente y útil.

La realidad es que a ti y a mí, como ciudadanos españoles, nos resulta mucho más fácil consultar los datos de una pyme británica que de una española. Eso no mola.

Veámoslo. 👇
He tomado una empresa británica completamente al azar. Una pequeña peluquería en un pueblo de Escocia que se llama Bearsden. Lo primero que ha salido.

La peluquería se llama «BEARSDEN HAIR SALOON» y está en el númereo 155 de Spey Road.

🔗 google.com/maps/place/155…
Read 25 tweets
2 Oct
📢 Acabo de apretar la última tuerca de mi 🤖 robot come-bormes. He pulsado el botón de «Power ON» y funciona perfectamente. 🥳

Os comparto algunos #datos y curiosidades del mundo empresarial español. Son desde el 1 de enero de 2009, que es desde cuando hay datos publicados. 👇
He procesado 86.247 boletines, de todas las provincias. Suman exactamente 654.404 páginas y en ellas hay 6.185.488 anuncios oficiales y 17.395.087 actos inscritos.

Mi robot ha tardado 111 minutos, 57 segundos y 371 milisegundos en procesar todo ello. En un MacBook Pro 2,3 GHz.
Yo he tardado unas dos semanas en programar el robot. Los primeros días hice el grueso del trabajo, y el resto ha sido ajustar las tripas —lo que más tiempo me llevó— y esperar pacientemente la descarga de 90.542 ficheros (26 gigabytes) desde internet.
Read 15 tweets
1 Oct
Me salen las páginas del BORME por las córneas, pero si no me da un glaucoma esta noche, tiene pinta de que mañana tendré estructurados todos los actos registrales de todo el Estado, desde 2009. De ahí podré extraer una ENORME lista de nombres de personas vinculadas a sociedades.
Todavía tendré que refinar mucho los resultados: sobre todo normalizar los nombres y corregir erratas. Tengo para ello un plan™️. Una vez terminado, podré cruzar esa lista con las candidaturas electorales y las empresas beneficiarias de contratos.
Es un trabajo ímprobo pero muy interesante. De él, además, espero alumbrar otras herramientas digitales útiles. Que haré también públicas. Pero «piano piano si arriva lontano», así que, de momento, próximamente hilo de tuits con cifras, estadísticas y curiosidades del BORME.
Read 7 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!