Profile picture
Walter Sosa Escudero @wsosaescudero
, 62 tweets, 9 min read Read on Twitter
Hoy en #estadisticaXtuiter tenemos El Aleph de la Estadistica, una suerte de visita guiada a lo que hace esta disciplina. De ser la estadisitca una serie de Netflix, esto es el "trailer". Ahi vamos.
Esta es una entrega para gente que jamás vio nada de estadística. Y que disfrutaran también los que vieron demasiados detalles, pero no la visión general.
Empezamos con un ejemplo. De una clase de 20 alumnos, estas son las notas de 5 de ellos, en un examen con nota de 1 a 10: 4, 6.2, 6.8, 7 y 8.50.
La nota promedio para estos 5 alumnos es 6.5. Este promedio (6.5) cumple dos roles: 1) trivialmente, 6.5 es exactamente el promedio de la nota de los 5 alumnos, 2) 6.5 es una estimación de la nota promedio de los 20 alumnos (buena o mala, todavía no importa)
En el rol (1) el promedio DESCRIBE los 5 datos disponibles. En el rol (2) el mismo promedio ESTIMA la nota promedio (inobservable) de los 20 alumnos. Al primer uso de la estadística se lo llama DESCRIPTIVO y al segundo, INFERENCIAL.
Otro ejemplo: de una población de 20 personas se encuesta a 6, de las cuales 3 votan al candidato A y 3 a B. Uso descriptivo: la mitad de los encuestados votan a A. Uso inferencial: se estima que la mitad de la población vota a A.
Fijate que la gran diferencia es que en el uso descriptivo las chances no intervienen: 6.5 es exactamente el promedio de notas de los 5 alumnos. Que 6.5 sea una buena estimación de la nota promedio de los 20 alumnos dependerá de para qué alumnos se observen datos.
Ejemplo: si los 5 alumnos para los que veo notas son los peores, 6.5 es exactamente su nota promedio pero subestima el promedio de todos.
Entonces, primer gran punto: en el uso descriptivo las chances no cumplen ningún rol, en el segundo, son fundamentales. Las probabilidades son la columna vertebral del uso inferencial de la estadística (el más interesante)
Otra forma de verlo: en el uso descriptivo la estadística focaliza en los datos, y en el uso inferencial, en lo que está detrás de los datos.
El promedio es una noción de “centro”. ¿Hay otras? Si, la mediana, la moda, etc., etc. Las vas a ver en un curso de estadística, tranqui.
El rango de variabilidad de las notas es 4.5 (la diferencia entre la nota máxima (8.5) y la mínima (4). Fijate que si todos los alumnos sacan todos 6.5, el rango de variabilidad es cero.
Segundo punto importante: el promedio es tanto más representativo cuanto más chico es el rango de variabilidad. Ergo: siempre que ves un promedio tenes que preguntarte por el rango.
Esto explica porque el chiste que dice "la estadistica es la ciencia que si hay 4 personas, una gana 20 y el resto nada, en promedio todos ganan 5" es una tontera: te falta la variabilidad
Si el promedio es una medida de “centro” el rango de variabilidad es una medida de DISPERSION. ¿Hay otras? Si, el desvio estándar o la varianza. Te las van a explicar en un buen curso, tranqui.
6.5 es exactamente el promedio de las 5 notas. “La” tarea de la estadística inferencial es medir cuan bueno es 6.5 como estimación del promedio (inobservable) de todos los 20 alumnos. Esto es difícil y requiere mucha energía.
Viste que en una encuesta dice “El 50% votara al candidato A con un margen de error de +/- 2.5%”? Bueno, una de “las” tareas de la estadística científica es dotar a la estimación (50%) de un margen de error.
Dificil: deberias ir sospechando que el “margen de error” es la potencial dispersión de las estimaciones, teniendo en cuenta todas las muestras que podrian haber aparecido para una población dada. Pensalo.
Volvamos a los 5 alumnos de nuestro ejemplo. Suponte que viene alguien y dice “para mi en esa clase la nota promedio es 7”. Esta aseveración es o cierta o falsa.
La estadística puede usarse para dirimir esta cuestión. A este problema se lo llama de “test de hipótesis”. Acá la hipótesis es “la nota promedio de la clase es 7” lo cual es cierto o falso. Se trata de ver si los datos confirman o rechazan esta hipótesis.
Ojo, no te confundas. La hipótesis es “la nota promedio de los alumnos osbervados es 7”, es trivialmente falsa, ya que es 6.5. El problema de test de hipótesis es interesante y relevante cuando refiere a la población, no a la muestra.
O sea, ya sabemos que la nota promedio de los alumnos observados es 6.5. ¿Alcanza para decir que para todos los alumnos no es 7? Aca se cuelan las chances: el test de hipótesis rechaza la hipótesis si el promedio observado es significativamente distinto de 7.
Otro problema. En otra escuela la nota promedio del mismo examen y para otros cinco alumnos es 5.4 ¿Es posible decir que a los alumnos de la segunda escuela les va peor que a los de la primera?
Uso descriptivo: a los alumnos encuestados, si (tienen promedio más bajo). Uso inferencial: es más delicado. Habria que ver si la diferencia de promedios (1.1) es lo suficientemente grande. Este es el problema de “dos muestras”.
Otro ejemplo: la tasa de pobreza de acuerdo a una encuesta sube de 28% a 32% en un año. Si bien subió para los encuestados, ¿es posible aseverar que subió para la población de referencia? Este problema es idéntico al anterior.
Seguimos: suponte que para los 5 alumnos ahora observamos cuantas horas estudian por semana, a saber: 3, 6, 9, 10, 18, respectivamente. Parece que quienes más estudian sacan nota más alta.
¿Es posible predecir la nota en base a la cantidad de horas estudiadas? Si. A este problema se lo llama “análisis de regresión”: predecir una variable (nota) en base a otra (estudio).
Cuando hay más variables predictivas (horas de estudio, de sueño, notas en el año anterior, etc.), se lo llama “análisis de regresión multiple” (muchas variables predictivas).
Stephen Stigler, el gran historiador de la estadistica dice que "el analisis de regresion es el automovil de la estadistica moderna". Tiene razon
En base a que más horas de estudio implica nota más alta, ¿es posible medir que efecto tendría sobre la nota estudiar una hora más? Malas noticias: no. A este problema se lo llama “falacia de la correlacion”.
Aclaro: análisis de regresión y correlacion son mas o menos lo mismo. Dos variables están corelacionadas cuando se mueven juntas.
Falacia de la correlacion: creer que porque dos cosas están relacionadas, una causa a la otra.
Ejemplo: la relación entre cantidad de lluvia y proporción de gente que anda con un paraguas es positiva. ¿Es posible predecir que a mas uso de paraguas mas intensidad de lluvia? Si, ningún problema.
Falacia de la correlación: de lo anterior, deducir que para que deje de llover hay que dejar de usar paraguas.
Entonces, ¿no se puede medir causalidad con regresiones? Si se puede, pero es muy complicado. Hace falta que los datos obedezcan a cierta estructura parecida a la de un experimento.
Falacia de la anticorrelacion (genialmente inventada por @uadlup): creer que las correlaciones no sirven para nada. La historia de la ciencia está plagada de correlaciones útiles.
Ahora suponte que 4, 6.2, 6.8, 7 y 8.50 no son las notas de 5 alumnos sino de 1 alumno durante 5 meses, de marzo a julio. A este tipo de datos se los llama “series temporales”. El análisis de series temporales estudia este tipo de cosas que ocurren en el tiempo.
Suponte que las notas ahora se ordenan de acuerdo a cuán lejos vive un chico de su escuela (4 el más cerca y 8.5 el que más lejos). Ahora los datos son “espaciales”. El análisis espacial no estudia cosas en el cosmos, sino este tipo de datos ordenados en el espacio geográfico.
La “estadística paramétrica” supone que las relaciones obedecen a una forma matemática concreta (ejemplo, la relación entre nota y estudio es una función lineal).
La “estadística no paramétrica” no hace supuestos “funcionales” sobre nada. Es tremendamente más costosa en términos de datos y algoritmos. Como en la economia, en la estadistica las cosas no son gratis
Volvamos al análisis de regresión. Históricamente la estadística se limitaba a estimar un modelo que era provisto por una teoría o experiencia previa. El modelo venia de afuera, la estadística decia como se estima.
Machine-statistical learning: la profusión de datos hace posible no solo estimar el modelo sino también construirlo adaptativamente. En esta nueva visión, el análisis de datos estima, construye y reformula modelos, es decir, aprende.
La gran revolucion del aprendizaje automatico tiene que ver con ampliar el rol de la estadistica a la construcción (por sobre la estimación) de modelos útiles.
Big data: ¿tiene sentido seguir distinguiendo entre “uso descriptivo e inferencial” si ahora con tantos datos cualquier muestra parece acercarse a la población? ¿Big data no será el fin de la estadística?
No, por dos razones. Una, es imposible observar todos los datos. A fin de ver si una droga funciona, necesito ver a la persona habiendo tomado una droga y a la misma sin haberla tomado.
Comparar la temperatura de una persona que tomo ibuprofeno con una que no es una comparación de peras con manzanas. La gente toma ibuprofeno porque tiene fiebre. Ergo: las que más toman tienen temperatura mas alta. ¿El ibuprofeno sube la temperatura?
La respuesta inteligente a esta cuestión fue el experimento: dos grupos, uno que toma ibuprofeno y el otro que no, pero asignados al azar. Rompe el experimento si le damos más ibuprofeno a los que tienen fiebre.
Big data es un océano de datos observacionales, es decir, NO EXPERIMENTALES. Es imposible observar datos contrafacticos. Asi y todo, es una gran oportunidad para contruirlos.
Segunda razón: los datos de big data son fuertemente dependientes y heterogéneos, lo que no necesariamente se traduce en más información, como los datos de una encuesta bien armada o de un experimento bien diseñado.
El gran desafio de big data es darle ESTRUCTURA a los datos, para aprovechar su tamaño y heterogeneidad.
Bueno, resumiendo. Hablamos de muestras, poblaciones, descripción, inferencia, promedios, varianzas, rangos, regresión, series temporales, test de hipótesis, aprendizaje automatico, datos espaciales, observacionales y experimentales, etc, etc.
Acordate: no hay estadisticas buenas o malas, tan solo utiles o inutiles.
Como seguir: la estadística es una coctelera de datos, matemática, computación y conceptos. Consejo: búscate un lindo problema aplicado y de ahí “procede”.
Referencias. La version "libro" de todo esto esta en mi libro de divulgacion, de la hermosa coleccion Ciencia Que Ladra amazon.com/Qu%C3%A9-qu%C3…
Una exclente introduccion sin matematica es esta antonibosch.com/libro/estadist…
Si alguna vez tomaste un curso de estadistica y buscas actualizarte, pegale una leida a este amazon.com/Introduction-S…
Inverti un poquito en R. Es facil y divertido. Hacete cualaquier curso online en el verano.
Inverti mucho tiempo en conocer los datos y su naturaleza. Si sos biólogo, estudia mucha biología, si sos politólogo, mucha política, no te sobreentrenes en técnica. El que gana es el que mejor conoce el problema.
Los ultimos tuits son el material de mi proximo libro, que saldra el año que viene. Sorpresa!
Y ahora si, me congratulo y me repercuto. Gracias por la buena onda. Buen finde.
Perdon, me olvide de este. Si andas bien en cálculo, animate a este muy buen libro amazon.com/s/ref=nb_sb_ss…
Para los que se lo perdieron ayer, les RT el #estadisticaXtuiter que hicimos: El Aleph de la Estadística.
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Walter Sosa Escudero
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member and get exclusive features!

Premium member ($30.00/year)

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!