«Hay una regla universal: cualquier pariente tuyo es, probablemente, MÁS MEDIOCRE QUE TÚ»

Con esta lapidaria frase, el primo de Charles Darwin acababa de acuñar en 1886 el modelo estadístico por excelencia

Hoy en #MatesEnDomingo ☕️: la historia de la RECTA DE REGRESIÓN
Te presento al primo de Charles Darwin, Francis Galton: estadístico, psicólogo y geógrafo

Por desgracia, como su paisano Karl Pearson, y la mayoría de su familia, apoyo la teoría eugenésica

De hecho fue él, Galton, quién acuño el término «eugenesia»

galton.org/essays/1860-18…
También fue el primero en proponer métodos de clasificación de huellas dactilares en medicina forense. Hasta inventó el silbato de ultrasonidos para perros.

Fue tantas cosas que incluso se le atribuye la creación del primer meteorológico de la historia

galton.org/meteorologist.…
Pero hoy hablaremos de su contribución estadística

Galton fue el primero que propuso conceptualmente (Pearson lo formalizó matemáticamente) la idea de CORRELACIÓN (co-relación) entre 2 variables, y el primero que usó la ahora archiconocida «REGRESIÓN»

¿Cómo llegó a ello?
Durante toda su carrera, Galton mostró una especial fascinación por «el origen de las especies» de su primo (Darwin)

Sin embargo, Galton no se centraba en los «mejor adaptados» o más evolucionados sino que hacía enfásis en lo que él llamaba los «mediocres» sin talento
Para Galton, el Pérez Reverte de la época, las sociedades modernas estaban fomentando esa mediocridad, interfiriendo en la selección natural, impidiendo que los más mediocres se extinguieran, así que se dedicó a estudiar si el talento era o no hereditario
galton.org/essays/1860-18…
Era tal su obsesión que estudió el talento en sagas familiares de la ciencia, como los Bernoulli, o música, como los Bach

Llegó a una conclusión: el talento se disipaba, según él, porque no heredamos solo de padres sino de toda nuestra línea hereditaria

sci-hub.st/https://doi.or…
En 1886 publicó «Regression towards Mediocrity in Hereditary Stature», el artículo que cambiaría la estadística, el primer uso conocido de la REGRESIÓN, probablemente, el modelo estadístico más usado (muchas veces mal) en la historia de la ciencia

galton.org/essays/1880-18…
Galton analizó la estatura de 205 hijos y sus padres, observando que, de nuevo, lo «extremo» se disipaba: había una «regresión a la mediocridad» de la descendencia (mediocridad entendida como una estarura media)

Hijos de altos eran más bajitos
Hijos de bajitos eran más altos
Vale, alto en el camino para dummies

¿QUÉ ES ESO DE LA REGRESIÓN?
Piensa en dos variables:
X: estatura 🔴
Y: peso 🟡

E imagina que, tras medir y pesar a una serie de individios, pintamos en un papel los pares (🔴, 🟡)

¿Existe algún tipo de relación entre ellas? ¿Cuándo sube 🔴 (más hacia la derecha) sube también 🟡 (más hacia arriba)?
La recta de regresión (o regresión lineal) es como una máquina: a cada punto de entrada X le asigna una predicción de Y, si (🔴, 🟡) estuviesen en torno a una recta

[ENTRA 🔴] -> [SALE 🟠 APROXIMACIÓN DE 🟡]

Objetivo: encontrar la MEJOR RECTA que se ajusta a la nube de puntos
Es el modelo más simple de predicción ya que asume que (🔴, 🟡) se concentran en torno a una recta

De todas las posibles rectas a pintar, ¿cómo encontramos la que mejor se ajusta a los datos? ¿Qué significa «mejor»?

Chorprecha: la mejor recta será con la que menos te equivoques
Al fin y al cabo buscamos una maquina que dada un valor 🔴 nos dé otro 🟠 lo más cercano a 🟡

La idea será encontrar una recta que, si calculamos la distancia (vertical) entre lo real 🟡 y la predicción (🟠 recta), la suma de las equivocaciones EN PROMEDIO sea la menor posible
La forma más sencilla para medir esas equivocaciones será
❎ERROR = REALIDAD🟡 - PREDICCIÓN 🟠

Imagina que tenemos:
🔴0 ->🟠1 (realidad 🟡 era 0 -> ❎ -1)
🔴1 ->🟠 0 (🟡 era 0 -> ❎ 0)
🔴2 ->🟠-1 (🟡 era 0 -> ❎+1)

Nos hemos equivocado en todas

¡PERO la MEDIA de errores da 0!
¿Por qué sucede? Porque los signos se cancelan
¿Importa el lado del error (arriba/abajo) o su magnitud?

En lugar de calcular la media de nuestras equivocaciones buscaremos la recta que minimiza EL CUADRADO de equivocaciones

MIN ❎² = MIN (🟡 - 🟠)²

sci-hub.st/https://doi.or…
Galton fue el primero en plantear la idea de «regresión a la mediocridad», pero el método que acabamos de ver (método de mínimos cuadrados) ya llevaba tiempo desarrollado por Laplace, Legendre o Gauss

Os dejo esta maravilla de @archimedestub

Volvamos a 1886

Galton no solo observó que estaturas «regresaban» a un parámetro medio sino que lo hacían con factor constante de 2/3

Si los padres se desviaban +3 por encima de la media --> los hijos se desviaban (2/3) * 3 = +2 por encima de la media

sci-hub.st/https://www.js…
En ese mismo año diseñó la llamada «máquina de Dalton»

Con ella observó que, si en la parte superior de un panel con obstáculos se lanzan canicas, no caen de forma uniforme como cabría esperar sino que acaban formando un patrón

No cualquier patrón: la campana de Gauss o Normal
Este experimento no solo le sirvió para corrobar su hipótesis (valores acaban «regresando» al centro)

Fue una constatación empírica del Tª Central del Límite: si tienes suficiente tamaño muestral, todo acaba tendiendo (¡en promedio!) a una campana de Gauss (de ahí lo de NORMAL)
Ya tenemos un método para encontrar, de todas las rectas posibles a ajustar a la nube de puntos, la mejor, con la que menos equivocamos

Pero...¿y si el modelo a ajustar no es una recta?

¿Y si la mejor recta posible sigue ajustando mal la nube?

¿Y si el patrón no es una recta?
Galton fue el primero en fantasear con el concepto de co-relación entre 2 variables

Pero fue Pearson quien definió lo que hoy conocemos como CORRELACIÓN LINEAL (DE PEARSON)

Un valor que, aún siendo la mejor de las rectas, nos diga si es un buen modelo

sci-hub.st/https://doi.or…
La correlación de Pearson fue un antes y un después

✅ ADIMENSIONAL (comparable)
✅ Valor siempre entre -1 y 1 : más cerca de -1 o 1, más pegados a la recta están los puntos
✅ Signo nos indica la dirección de la relación: estatura vs peso sería positiva (más mides, más pesas)
Galton (y Pearson), en su afán por justificar ciertas ideas de que el talento depende de ancestros y raza, había propuesto la idea más usada en estadística: la «regresión a la mediocridad»

Un cuñado (primo en este caso) con una idea brillante

projecteuclid.org/download/pdf_1…
Espero que te haya gustado, si es así se agradece RT al principio del hilo, y tienes más divulgación por instagram.com/javieralvarezl…

Te dejo algunas referencias más :)

galton.org/essays/1880-18…

journals.sagepub.com/doi/pdf/10.106…

medium.com/cantors-paradi….
todo vuestro @Dimatematicas :)
Mira @Farmaenfurecida @mienfermerafavo, el hilo de la historia de vuestra pesadilla: eugenesia y regresión juntas :P

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Dados de Laplace ∆(🎲) | Javier Álvarez Liébana

Dados de Laplace ∆(🎲) | Javier Álvarez Liébana Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @DadosdeLaplace

17 Oct
Acabo de descubrir (por un tuit de @IsmaMullor) esta puta fantasía

Un médico en 1994 publicó un paper en el que (él creía que) DESCUBRÍA LA INTEGRAL

«A mathematical model» aka integral

Si crees que estás empanado de la vida, Tai siempre te superará

care.diabetesjournals.org/content/17/2/1…
«The strategy of this mathematical model is to divide the total area under a curve into individual small segment SUCH AS SQUARES, RECTANGLES...»

Me recuerda al celebrity de Hulk Hogan de Joaquín Reyes «¡pero nadie me había avisado!» jajajajajaj
Os dejo el paper descargable porque es pura fantasía hasta la conclusión y las referencias

sci-hub.st/https://care.d…
Read 4 tweets
16 Oct
Esta mañana he estado en @LaHoraTVE con @monicalopez_tve, hablando entre otras cosas del borrador de SEMÁFORO COMÚN🚦que Sanidad va a proponer a las CCAA como umbrales de riesgo

Hilo 🧵👇con el resumen de los mismos, alguna crítica y donde podéis encontrar cada dato
Antes de resumir y comentar los umbrales, el borrador de los criterios del semáforo lo tenéis aquí
redaccionmedica.com/contenido/imag…

Aquí esto de @Pablolinde sobre CCAA con algunos de esos indicadores
elpais.com/sociedad/2020-…

Aquí análisis de @beaasuargallego
Han diseñado 2 bloques de indicadores separados:

I. TRANSMISIÓN: IA14, IA7, IA14 e IA17 mayores de 65, positividad, % casos con trazabilidad
II. ASISTENCIAL: ocupación hospitalaria y UCI

Para cada una, 5 niveles de RIESGO:
🟢 Nueva normalidad
🟡 Bajo
🟠 Medio
🔴 Alto
🟤 Extremo
Read 25 tweets
13 Oct
🏥 ¿Cómo está la situación en los hospitales tras el primer puente pandémico tras el verano?

Breve hilo sobre la presión sanitaria que tenemos actualmente en España 🧵👇 Image
1. PANEL GLOBAL

Este es el panel resumen en España.

¿La buena noticia? Se observa meseta en hospitalizados, que se replica con 5-7 días retraso en UCI

¿La mala? Desde un punto de vista de la propagación, nos da info de situación hace 2-3 semanas, no la actual Image
2. INCIDENCIA

De hecho si miramos incidencia 4 octubre, último día del que hay dato consolidado, y aunque faltan casos por retrasos, la situación en incidencia es TERRIBLE

Asturias y Catalunya deberían ser nuestro canario en la mina: ha pasado de azul a amarillo/naranja Image
Read 15 tweets
11 Oct
¡OJO LO QUE HE DESCUBIERTO!

📊 Cada barra representa el nº veces en las que el primer dígito en los nuevos casos diarios (de todas las provincias) es el 1, 2,..., 9: ¡siguen un patrón!

¿Están MANIPULANDO los datos del covid? 🤔

Hoy en #MatemáticasEnDomingo ☕️: Ley de Benford
📊 La imagen representa un diagrama de barras: una forma de representar el nº veces que se repiten valores de una variable DISCRETA (entre 2 valores cualesquiera hay finitos valores)

Aquí la diferencia histograma vs diagrama de barras de @ljrguezmuniz

Lo que he hecho ha sido lo siguiente

1⃣ Me he bajado el histórico ISCIII de nuevos casos diarios
2⃣ De cada día, y cada provincia, extraigo primer dígito: si hubo 1329 casos, apunto 1; si hubo 35, apunto 3; si hubo 781, apunto 7
3⃣ Calculo nº veces en las que apunto 1, 2, ..., 9
Read 26 tweets
9 Oct
Veo varios tuits preguntándose porque se aplica estado de alarma en Comunidad de Madrid y no en Navarra, con mayor incidencia

No sé cuando hay que tomar cada medida, no sé de salud pública. Pero me gustaría hacer breve hilo explicando por qué los DATOS NO SON COMPARABLES 🧵👇 ImageImage
1. INCIDENCIA ACUMULADA

Según datos actualizados ahora mismoo

* MADRID tiene incidencia acumulada IA14 = 540.64 (IA7 = 229.96)
* NAVARRA tiene IA14 = 675.31 (IA7 = 343.31)

Combinando ambos nos viene a decir que la última semana Navarra ha empeorado más que Madrid Image
En parte es lógico: cuanto peor estés, es más probable una mejoría

Si nos fijamos en el mapa de ratio de IA7 (divides la incidencia de la última semana entre la anterior) del dato consolidado vemos como ambas mejoran en % más que otras provincias

cnecovid.isciii.es/covid19/ Image
Read 24 tweets
6 Oct
Con la polémica del excel de ayer para el procesamiento de datos muchos me preguntasteis que usar en su lugar. Os dejo dos cursos muy muy interactivos de R y Python, para aprender casi jugando

R: swirlstats.com

Python: checkio.org
Ambos programas son ahora mismo los más recomendables para quienes además de guardar datos necesitan realizar un análisis estadístico de los mismos

Yo uso R por dos razones.

La primera es que fue pensado para estadística y es mantenido por estadísticos (y se nota)
La segunda es que R, para el análisis estadístico, tiene una comunidad de usuarios más grande que Python y esto es importante, ya que al ser lenguajes modulares (te vas instalando los cachitos que necesitas de todo lo que hay hecho), el 90% de lo que necesitas ya lo tienes hecho
Read 8 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!