My Authors
Read all threads
Tanta charlatanería de de Big Data y estamos como estamos. Pequeña introducción de mi experiencia laboral de los últimos meses como "Head of Data and ..." de mi empresa.
A finales de septiembre de 2019 me piden que comience con un pequeño equipo de gente (tres y yo), que creemos un datalake para todo el grupo de empresas B2B y que importe los datos al datalake y que estén disponibles para análisis y reportes.
Comenzamos con la prioridad de ingerir los datos de reservas de todas las plataformas, con muchos requisitos, a lo que se agregó que seríamos el "source of truth" para el ERP. Comenzamos con esta arquitectura del "data pipeline" en AWS
No os imagináis el follón que es sólo entender el negocio de diferentes áreas y con plataformas tecnológica diferentes cada una con su propia idiosincracia y conceptos. Pero esa primera parte la acabamos en menos de 4 meses, la mayor parte del tiempo fue dedicado a validaciones.
Luego agregamos más datos, la ingestión en tiempo real de más de 7 mil millones de registros diarios, ingerir tablas maestras, etc. etc. Ahora tenemos todo lo necesario en el datalake. El viernes pasado nos pidieron más datos necesarios para análisis de riesgo.
No teníamos ni idea de cómo obtenerlos y además unificarlos en un esquema común. Pero durante el fin de semana lo trabajamos y ayer acabamos con lo último que nos faltaba
Es decir, entiendo la complejidad de gestionar datos, trabajo en ello, con un equipo muy pequeño y haciendo "ingeniería de datos" muchos más complejos y en volumen que el número de afectados, fallecidos, ingresados, edad y sexo del covid19....
De verdad, me tiro de los pelos cuando el ministerio de sanidad ni las CCAA han sido capaces en todo este tiempo en ponerse de acuerdo en unas pocas columnas de Excel para comunicar y analizar de forma consistente.
Aquí hay incapacidad que no es sólo política o del gobierno, falló a todos los niveles. Por supuesto que la culpa no lo tiene la pobre becaria o inexpertos que tiene que picar datos en un Excel, sino los gestores y directores intermedios. Está claro que no tenemos los adecuados.
Me ofrecería a trabajar voluntario para intentar... pero sé que ya es tarde, no serviría de nada y tampoco me aceptarían. Pero vaya desastre de gestión de datos que tenemos. Lo de tablas sólo en PDF y covid19.isciii.es sin ofrecer datos crudos es la punta del iceberg.
De todas formas, por experiencia sé que es posible crear un grupo pequeño de "ingeniero de datos" que en pocos días es capaz de coordinar y hacer la ingeniería necesaria para tener datos consistentes. Y aquí sí hubo una falta de iniciativa del ministerio.
Me impresiona cómo somos capaces de movilizar a tanta gente en sanidad (que además da la talla), cambiar el comportamiento de 47 millones de personas, parar casi todo el tráfico aéreo, asegurar suministros... y otras "heroicidades" que enorgullecen.
Pero luego somos incapaces de tener unos pocos Excel consistentes para informar y analizar la situación en la que estamos. ¿Por qué? Porque en estas áreas hay mucho charlatán de alto comisionado.
3 puntos importantes que aprendí:
1. Lo crítico al empezar es poder analizar tendencias, el detalle luego
2. Por #1, no es necesario empezar con 100% de los datos y consistencia total
3. Sí hay que saber explicar qué significan, qué falta y por qué las discrepancias
¿Qué necesitábamos para analizar tendencias de forma fiable? El número de contagiados no sirve, la medición es inexacta por limitaciones físicas. Lo que hacía falta era el número de ingresados, gravedad y fecha de aparición de los primeros síntomas. Nunca vi esta información.
Por supuesto también el número de fallecidos, pero estos datos llevan más retraso. Si hubiésemos tenido los datos de ingresos y fecha de aparición de los síntomas (es un dato simple de obtener) podríamos saber ahora mismo si el encierro está sirviendo y en qué medida.
Quizás (lo espero), el ministerio o las CCAA lo tengan de una forma u otra, pero no se ha comunicado. Y no sé qué es más grave, no tenerlos u ocultarlos.
Me pasa @vrruiz un PDF que tiene el siguiente gráfico, justamente con los datos críticos que mencionaba. Pero están incompletos (faltan datos de síntomas), lo que hace que el gráfico sea peor que inservible, es engañoso
Si alguien no experto en lo de garbage-in/garbage-out mira el gráfico concluirá que la tasa de contagios empezó a bajar el día 13 de marzo. *Quizás* sea cierto si el error está uniformemente distribuido, por eso hace falta lo que decía en #3: explicar la discrepancias.
De todas formas, ese es el tipo de gráfico que se debería publicar varias veces por día pero con información completa. No hace falta entrar al detalle del número sino la tendencia, nos daría mucha información, aunque haya errores pero sepamos qué proporción y cómo se distribuye.
Antes una pregunta, Simon dice [casi] literalmente "Con los datos que tenemos no podemos saber exactamente en qué estado estamos". Pues eso, le faltan los de aparición de síntomas (de los ingresados, que es más fiable que los contagiados detectados).
Missing some Tweet in this thread? You can try to force a refresh.

Enjoying this thread?

Keep Current with Ricardo Galli 🏴 🗣️

Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!