Hoy en #estadisticaXtuiter, “databorges”: un paseo borgiano por el mundo de los datos y las estadísticas. Y un paseo estadístico por el universo del notable escritor argentino
No hace falta ni saber estadística ni haber leído a Borges. Por el contrario, el objetivo es que te entusiasmes con ambas cosas y te animes
Spoiling: hacer spoiling de Borges en un tuit es como resumir Crimen y Castigo diciendo que “un chabón se carga a una vieja y después le da cosa” (Dolina dixit). La nada misma
Tal vez el nexo inicial sea Funes El Memorioso. Funes podía (y quería) recordar cualquier detalle, por ínfimo que sea
“Nosotros, de un vistazo, percibimos tres copas en una mesa; Funes, todos los vástagos y racimos y frutos que comprende una parra. Sabia las formas de las nubes australes del amanecer del treinta de abril de 1882….”
El punto con Funes era su incapacidad (o falta de necesidad) de abstraer. “Pensar es olvidar diferencias, es generalizar, abstraer. En el abarrotado mundo de Funes no había sino detalles, casi inmediatos”. Funes es la negación de la estadística
Stephen Stigler causó un revuelo en la profesión al comenzar su reciente libro (The Seven Pillars of Statistical Wisdom) diciendo “Big data es Funes sin estadística”. Casi lo asesinan los bigdateros
Xiao Li Meng, director del departamento de estadística de Harvard, dicta un curso llamado “Ireneo Funes y Big Data” en donde revisa las relaciones entre el personaje de Borges, el reciente libro de Stigler y el análisis de datos.
En Del Rigor en la Ciencia, Borges habla de unos cartógrafos de antaño que arman un mapa de un imperio tan grande… como el imperio. Ahí te lo dejo entero
Emocionate escuchando a Don Jorge Luis leyendo su texto
La palabra clave es “inútil”. El mapa no es descartado por malo sino por inútil. La estadística no es buena ni mala: es tan solo útil o inútil. Ej: las mediciones de la pobreza son útiles, aun cuando malas
Con este mapa feo pero útil, en 1854 John Snow detiene una epidemia de cólera y da nacimiento a la epidemiologia y a la salud publica (muestra que el cólera se transmite por el agua y no por el aire, fíjate bien)
En Evaristo Carriego, Borges dice “Si el tiempo es sucesión, debemos reconocer que donde densidad mayor hay de hechos más tiempo corre y que el más caudaloso es el de este inconsecuente lado del mundo….”
Borges juega con medir el tiempo no como mero paso del reloj sino como acumulación de hechos. Es casi la definición de lo que hace una función de densidad con las probabilidades.
La alusión a Carriego ocurre en Pampa y Triunvirato, en el barrio de Villa Urquiza. Yo nací y me crie a una cuadra. Me conecta secretamente a don Jorge Luis.
En esa línea, hablando de la edad de Funes, Borges dice: “Ireneo tenia diecinueve años…; me pareció monumental como el bronce, más antiguo que Egipto, anterior a las profecías y a las pirámides”.
Pierre Menard es, a mi gusto, casi su obra maestra y admite múltiples lecturas. Menard es un escritor que en 1936 se propuso escribir el Quijote. ¿Cómo? ¡plagio!, ¡plagio!, gritaríamos todos.
El objetivo del cuento es (Borges dixit) “justificar ese dislate”. Menard logra “producir” algunos textos, que en sus palabras coinciden exactamente con el Quijote de Cervantes.
Borges juega con la idea de que los símbolos (los textos) son solo una parte del evento creativo. De ahí que opina que Menard, al lograrlo, es también autor del Quijote.
Ante la pregunta de quién es el autor del Quijote, Borges se planta firme. En el titulo mismo lo dice: “Pierre Menard, autor del Quijote”.
Menard es la kriptonita de la estadística y casi la definición por extensión de lo que se llama “problema de identificación”. Identificacion: distintos modelos tienen que producir distintos datos.
La “identificabilidad” es la piedra angular de la estadística: lo que permite aprender a partir de datos.
Mirando los textos (¡los datos!) de Menard y Cervantes resulta imposible descifrar la autoria. Viola el “supuesto de identificación”. Menard está prohibido en la estadística.
Sin identificación es imposible aprender a partir de datos. Menard ilustra magistralmente esta cuestión. Es super sutil.
En 1968, Frank Mosteller analiza estadísticamente los textos de El Federalista para discernir si habían sido escritos por Hamilton o Madison. Mirando sutilísimas diferencias en la escritura puede identificar a los autores.
Fíjense que esta tarea habría sido imposible en el caso de Menard: no hay identificación, mismos “símbolos” se corresponden a distintos autores.
En El Jardin de Senderos que se Bifurcan Borges propone un laberinto en donde coincidimos con todos nuestros contrafacticos. Coexistimos yo haciendo #estadisticaXtuiter y también quien decidió no hacerlo.
En el laberinto convive “…una infinita trama de tiempos que se bifurcan, se cortan o que secularmente se ignoran”, y, "El tiempo se bifurca perpetuamente hacia innumerables futuros. En uno de ellos soy su enemigo"
En cierto modo, el experimento científico consiste en construir los senderos alternativos del laberinto de Borges: la familia que recibió la Asignacion Universal por hijo y EXACTAMENTE la misma familia que no la recibió.
La estadística no observa contrafacticos: los construye. Es una gran piedra en el zapato de big data: por más datos que veamos, nunca observamos todos los senderos de Borges.
¿Tendremos todos los datos? Los del laberinto de Borges, no. ¿Hacen falta? Si, para evaluar intervenciones no queda otra (si no es compar peras con manzanas).
Ejemplo: la diferencia entre una persona que tomo ibuprofeno y quien no se debe tanto al efecto del ibuprofeno como a las razones por las que esa persona lo tomó.
El brillante libro de Richard McElreath (Statistical Rethinking) usa El Jardin para explicar cómo funcionan las probabilidades: como medida de las chances de caer en una de las ramas del laberinto de Borges en comparación con el resto.
Tambien sirve para mostrar que un censo a la larga es una muestra de la población de infinitas posibilidades.
“La historia era increíble… pero se impuso a todos porque sustancialmente era cierta” dice Borges en el final de Emma Zunz, tal vez el más dramático y terrible de sus cuentos.
Emma Zunz venga a su padre “haciéndose violar” por un tosco marinero, para luego aparecer por la oficina de quien traicionó a su padre, rematarlo de un tiro y aducir defensa propia como si él la hubiese violado. El cuento es espeluznante, no se lo pierdan.
El ejercicio de adosar la historia más creible a un conjunto de datos se llama “máxima verosimilitud” (MV) en estadística. Me gusta más “máxima compatibilidad”: la historia más compatible con los datos.
MV es un ejercicio de “ingeniería reversa”. Para generar datos hay que usar un mecanismo. La idea de MV es ir al reves: viendo los datos conjeturar cual fue el mecanismo que los generó.
Emma Zunz da vuelta este problema como una media: Ella sabe la historia que quiere que prevalezca, solo necesita generar “los datos” que la hagan creible-contable.
Termina Borges diciendo “Verdadero era el tono de Emma Zunz, verdadero el pudor, verdadero el odio. Verdadero era también el ultraje que había padecido; solo eran falsas las circunstancias, la hora y uno o dos nombres propios”.
En estadística, la idea no es “analizar los datos” sino lo que está detrás de ellos. Es lo que Emma Zunz pretende que se vea: su indignación, su sentido de la justicia (y la venganza).
Bueno, hay muchísimo más, que dejare en el tintero para que no se empachen. Si no, sería como tomarse una botella de Dom Perignon del pico y de un tirón.
Referencias: los libros de Alberto Rojo y Guillermo Martinez son muy recomendables (y ambos muy buena gente).
Borges: si nunca lo leíste, te envidio profundamente, te acompañara (para bien o mal) por el resto de tu vida. Consejo, compra las Obras Completas, pero también algún libro pequeño, que puedas cargar contigo y hacer anotaciones.
La RAE saco una hermosa compilación (Borges Esencial). Obras Completas: la Edicion Critica (anotada) de Emece, es muy linda. Regalatela.
He escrito copiosamente sobre Borges, en @LaNacion, en mis anteriores libros y en los dos que están por salir, tenganme paciencia!
Nunca di una clase (de cualquier cosa) en donde NO hable de Borges.
Sobre censos como muestras: google.com.ar/search?q=censu…
El libro de Stephen Stigler (el de Funes y Big data) es: amazon.com/Seven-Pillars-…
El de McElreath es altamente recomendable, no te lo pierdas. amazon.com/Statistical-Re…
Todo esto es parte de un proyecto llamado “databorges”, en el que trabajo hace unos años, y que verá la luz cuando tenga energía, tiempo y apoyo.
Bueno, ahora sí, me congratulo y me repercuto. Gracias muy especiales por bancar esta edición de #estadisticaXtuiter, muy afin a mis sentimientos.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Walter Sosa Escudero

Walter Sosa Escudero Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @wsosaescudero

Sep 2, 2020
En base a algo que me preguntaron, breve hilo tecnologico de McGyvereadas para dar clase online, ahi vamos: 1/n
Primero: esta es la version McGyver, todo "lo atamo' con alambre, lo atamo'", costo cuasi cero. La version Wanda Nara ira en otro hilo.
Camara: las de las notebook con malisimas, pero esto mejora mucho. Busca donde esta la camara. Arma una pila de libros/cajon, pone la notebook y fijate que la camara apunte a tu nariz. 2/n
Read 13 tweets
Mar 12, 2020
McGyvereadas para virtualizar clases (hilo)
1. Xodo: lector de pdf que permite escribir arriba en una tablet cualquiera
2. AZ Screen Recorder: graba un video de todo lo que se muestra en una pantalla.

1/n
3. Grupo cerrado en Facebook: solucion vintage, simple y barata para interactuar.
4. Abrir canal en YouTube, para subir videos.
5. Explotar lo asincronico (ahorra ancho de banda, combinar horarios, etc.).
6. Grupo cerrado de whatsapp, solo para emergencias.
7. Filmar videos cortos (15' max). Poner un breve multiple choice al final
8. Permitirse errar, no es un programa de television.
9. Armar pagina web con todo el material (yo uso Weebly).
Read 8 tweets
Dec 19, 2019
Documento historico. Como todos mis libros y proyectos, todo arranca con un doc que llamo "brainstorm" y una tecnica que ya les contare. Este es el que dio nacimiento al #libroverde, luego de una conversacion con @DiegoGolombek y Carlos Diaz. Image
@DiegoGolombek La tecnica: cualquiera de mis proyectos "grandes" empieza asi. Una mañana me voy a un cafe (que no puedo revelar), abro la computadora y veo si puedo escribir 30 de estos topicos, sin pensar, sin ordenar, sin releer. Si en 2 horas puedo escribir esos 30 bullets, hay un libro.
@DiegoGolombek Despues no uso el brainstorm, o solo muy ocasionalmente, es solo una tecnica de creatividad que uso para ver si "fluyo" o no.
Read 6 tweets
Oct 18, 2019
Machete legalizado (reflexiones):
1. El alumno, el examen, el machete y el profe interactuan.
2. Muchos alumnos creen que es mejor con machete porque creen que es el mismo examen pero con machete
3. Para que todo nivele para arriba, hay que laburar MUY bien la clase y el examen..
4. Hay que pasar la señal clara (como profe) de que nunca les preguntaras nada que este en un machete.
5. Tenes que inducir al alumno a que conecte conceptos.
6. La frase "no toma lo que da en clase" es musica para mis oidos de profe.
....
7. Desde la primera clase les advierto lo del machete legal, y que no les voy a tomar nada que yo sospeche que pueden tener escrito en un machete.
8. Quiero que mis alumnos piensen, que conecten puntos, que estudien de otra forma...
Read 9 tweets
Oct 14, 2019
Hoy en #estadisticaXtuiter Que cuernos significa que un estimador sea sesgado? Incluye tutorial en R al final!!!!!
Pensa: Periodista sesgado? Profesor sesgado? Argumento sesgado? Spoiler: insesgado = justo. Que no favorece nada que no sea la verdad.
Mira este dibujo. 25 puntos y la recta de regresión estimada por minimos cuadrados (MCO). Es posible ver gráficamente que MCO es insesgado? Maestro, redoble, por favor….. No, no se puede. Que?
Read 28 tweets
Oct 13, 2019
Belleza: sabias que la varianza es la mitad del promedio de los cuadrado de todas las discrepancias posibles entre n observaciones?
Si viste clusters, tuviste que haber visto esto.
Quiz: si reemplazas cuadrados por valores absolutos, y dividis por la media, que da? Ayuda: empieza con g.....
Read 7 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(