๐ ยกAcabo de encontrar una serie de mapas increรญbles realizados con #RStats! Desde mapas interactivos hasta diseรฑos 3D, hay algo para todos los amantes de los datos espaciales
๐ ยก8 cuentas a las que definitivamente vale la pena darle un vistazo!๐งต #dataviz#maps#geospatial#gis
๐ฝ๐๐๐๐๐๐๐๐ ๐ ๐ ๐ช๐๐๐๐๐๐รณ๐: riesgos, lรญmites y consideraciones crรญticas๐๐งต
ยฟQuรฉ es un confusor? ยฟCuรกles son sus consecuencias?
ยฟCรณmo evitar problemas de confusores? ยฟQuรฉ limitaciones debemos tener en cuenta?
ยฟQuรฉ es? Una variable de confusiรณn (o confusor) es un tercer factor que cambia la asociaciรณn entre otras 2 variables: la exposiciรณn (e.g. el factor de riesgo que se estudia) y el resultado (e.g. el efecto en la salud).
3 condiciones๐
ยฟConsecuencias? El efecto real de la exposiciรณn se mezcla con el efecto de otros factores que tambiรฉn influyen en el resultado, dificultando la identificaciรณn de la verdadera relaciรณn causal.
Puede alterar los resultados en magnitud o direcciรณn.
๐๐ ๐ฉ๐จ๐ญ๐๐ง๐๐ข๐ ๐๐ฌ๐ญ๐๐๐ข๐ฌ๐ญ๐ข๐๐ es 1โฮฒ: la probabilidad de evitar un ๐๐ซ๐ซ๐จ๐ซ ๐๐ ๐ญ๐ข๐ฉ๐จ II, es decir, de no pasar por alto un efecto real del tamaรฑo especificado. Una potencia baja implica un alto riesgo de concluir que no hay efecto cuando sรญ existe.
#master
Por eso, el enfoque correcto no es basarse en el efecto esperado, sino en el ๐ญ๐๐ฆ๐๐งฬ๐จ ๐๐๐ฅ ๐๐๐๐๐ญ๐จ ๐๐ ๐ข๐ง๐ญ๐ฬ๐ซ๐๐ฌ ๐ฆ๐ฬs ๐ฉ๐๐ช๐ฎ๐๐งฬ๐จ (๐๐๐๐๐). Esto define el umbral de relevancia cientรญfica o prรกctica que no queremos pasar por alto.
#cienciadedatos #phd
๐ฑ ยฟTienes varias mediciones de un mismo sujeto, sensor o ciudad? ยกCuidado! Tratarlas como si fueran observaciones independientes (e.g. tratar 25 mediciones de 5 sujetos como si fueran 25 sujetos distintos) es cometer pseudoreplicaciรณn. Y este error invalida tus conclusiones:๐๐งต
1๏ธโฃInferencia
Al ignorar la dependencia, el modelo asume que cada dato aporta informaciรณn nueva y รบnica. Esto subestima el error estรกndar e infla los estadรญsticos de prueba.
Consecuencia: Aumentan los falsos positivos y se distorsionan artificialmente los intervalos de confianza.
2๏ธโฃ Estimaciรณn de Efectos (Intra vs. Inter)
Impide distinguir entre la variabilidad intra-sujetos (cambios en el tiempo) y inter-sujetos (diferencias inherentes).
Consecuencia: Los efectos aparentan ser mรกs precisos de lo que realmente son, y puedes caer en la Paradoja de Simpson.
โฝ En este post tienes una introducciรณn divulgativa y prรกctica al papel del data scientist en el fรบtbol, explicando quรฉ datos se generan, cรณmo se analizan y para quรฉ se usan en la toma de decisiones deportivas.
Hoy cada partido y entrenamiento producen una avalancha de informaciรณn que ya no se puede gestionar solo con intuiciรณn.
El data scientist entra en escena para responder preguntas que antes no tenรญan respuesta clara:
El fรบtbol sigue siendo emocional. Pero la toma de decisiones ya no lo es tanto.
Cada vez mรกs clubes (grandes y pequeรฑos) tienen equipos internos de datos. Porque decidir fichajes, rotaciones o planteamientos sin datos hoy es asumir desventaja estructural.
๐จ๐๐ผฬ๐บ๐ผ ๐ฒ๐๐ฎ๐น๐๐ฎ๐ฟ ๐๐ป ๐บ๐ผ๐ฑ๐ฒ๐น๐ผ ๐ฝ๐ฟ๐ฒ๐ฑ๐ถ๐ฐ๐๐ถ๐๐ผ: decenas de mรฉtricas... y mucha confusiรณn
La evaluaciรณn de modelos predictivos estรก plagada de mรฉtricas (ยกexisten mรกs de 30!), pero ยฟQuรฉ preguntas responden realmente?
ยฟCรณmo evaluar quรฉ errores comete, con quรฉ frecuencia y a quรฉ coste?
#stats
โถ๏ธ ๐๐ซ๐๐๐ง๐๐ง๐จ๐ (๐๐๐๐จ๐ฅ๐๐๐ฌ)
Porcentaje total de aciertos.
โ ๏ธ Si una clase es mayoritaria, un modelo trivial que siempre predice esa clase puede tener una exactitud alta sin capacidad predictiva real.
Debes superar la tasa de no informaciรณn (% clase mayoritaria)