Con 9 años, mi pasatiempo favorito era rellenar las libretas de mis padres profesores con estadísticas de baloncesto, construyendo así mis equipos sobre papel. 18 años más tarde, esta pasión ha mutado en mis estudios de doctorado.
Al tratarse de un campo de investigación muy específico, quiero empezar con un poco de contexto.
Las estadísticas son claves en el mundo del deporte, dado que cuantifican lo que sucede durante los partidos de forma concisa, respaldando así (o no) la propia percepción.
P.ej. en 🏀, la 1a fuente de datos fue el box score, que aporta un resumen en crudo de todos los eventos del partido.
Sin embargo, los box scores no son un recurso fiable para tomar decisiones basadas en datos. Por este motivo, nuevas fuentes de datos han ido emergiendo...
Estas fuentes de datos han ayudado a lxs entrenadorxs a optimizar el rendimiento de sus equipos, pero lo mejor estaba aún por llegar... ¡Tracking!
En 2014, dos empresas cambiaron las reglas del juego con un sistema de cámaras que recababa datos posicionales de lxs jugadorxs.
Con estos datos de seguimiento, los clubes crearon departamentos de i+D; 6 años más tarde, la eficiencia ofensiva de los equipos está en su cúspide. El tracking lo es todo.
Si al Adrià de 9 años le volvían loco las estadísticas de boxscore, imaginad al Adrià (ingeniero-entrenador) de 23, conocedor del potencial ilimitado de los datos de tracking.
Mi tesis es un viaje por el tracking y su aplicación en el deporte (🏀 y ⚽️). Iniciamos despegue.
¿Mi primer objetivo? Analizar la viabilidad de los sistemas de tracking en el 🏀 europeo, un campo sin explorar.
Si en la NBA utilizan sistemas caros de 10+ cámaras situados en el techo, ¿es posible replicar su output en modo low-cost, usando solo la cámara de retransmisión?
Con modelos de pose de la literatura, creamos 2 sistemas de tracking. ¿Cómo? Con técnicas de visión por computador.
Groso modo: 1. Filtrar la parte de la imagen que corresponde a la pista. 2. Detectar jugadorxs en cancha. 3. Asociar detecciones, ¿quién es quién?
Estos trackers consiguieron más de un 70% de precisión de seguimiento, convirtiéndose así en un buen punto de partida para futuras investigaciones.
Sin embargo, un sistema real y robusto requiere más del 95% de precisión 🤯, un resultado "imposible" de conseguir sin más cámaras
Llegados a este punto, tenía 2 opciones para continuar mi tesis:
A) Seguir con el tracking 🏀 aunque no tuviera más recursos/datos
B) Conseguir una base de datos fiable de tracking ⚽️ y ver qué aplicaciones podían tener un impacto real en la literatura
Fácil decisión, ¿no? ⚽️
Gracias a los consejos de expertos como @JaviOnData, nos decantamos por investigar sobre un aspecto concreto aún sin explorar: la orientación corporal.
Entrenadorxs como Guardiola han remarcado que la orientación es un atributo vital en el ⚽️, sobre todo en los pases. ¿Es así?
Sin ir más lejos, mirad esta situación de Messi:
- Al principio, está orientado hacia Suárez (der.)
- Messi gira su cuerpo y el panorama cambia por completo, siendo Griezmann (izq.) el mejor candidato para recibir y marcar.
En menos de un segundo, la orientación lo cambia todo.
¿Cómo obtenemos la orientación? De nuevo, con visión por computador.
Identificando y delimitando el torso superior de lxs jugadorxs con modelos de pose, y fusionándolo con información semántica (posición del balón), se puede estimar la dirección hacia la que mira el cuerpo.
Para validar los resultados, se utilizaron datos de sensores con giróscopo, y se obtuvo un error de menos de 30 grados de mediana.
¿Es mucho o poco? Podéis juzgarlo vosotrxs mismxs con este vídeo (amarillo - estimación, verde - sensor). No es ideal, pero es un inicio prometedor
Y ahora, ¿cómo podemos cuantificar la importancia de la orientación?
La 1a propuesta es recopilar datos y visualizarlos mediante mapas en los que se puedan observar características (en base a la orientación) individuales y colectivas; ej. ¿qué jugadorxs se entienden mejor?
La 2a propuesta consiste en crear un modelo computacional que genere mapas de viabilidad de pase.
Es decir: dada la posición y orientación de lxs jugadorxs, el modelo indica, mediante distribuciones matemáticas, en qué posiciones hay más probabilidad de que un pase sea exitoso.
Dichos mapas han sido validados, y en un 80% de ocasiones de pases exitosos, el receptor real del pase estaba en el top3 de candidatos del modelo.
Si suprimimos la orientación como característica del modelo, la precisión cae hasta el 58%, lo que demuestra su relevancia en ⚽️
Muchas gracias por haberme acompañado en este tracking-viaje. Y que no os pase como a mí, que ahora detecto problemas de orientación por todas partes.
Si os habéis quedado intrigados con el contenido de mis libretas, podéis escuchar esta charla @TEDxUPF: bit.ly/3sefaCW
• • •
Missing some Tweet in this thread? You can try to
force a refresh
Esta temporada estoy viendo gente nueva 🔝 haciendo sus primeros pinitos en estadística avanzada🏀. Sin embargo, los datos que se comparten pueden no ser suficientes para la toma de decisiones, que debería ser el uso real analítico.
Abro 🧵 con algunas sugerencias para mejorar.
1. Compartir y crear bases de datos públicas.
Si eres unx as de hacer scraping, las tareas de centralización y limpieza son necesarias para todx entrenadorx, y que por oscuro que parezca, son oro. No hace falta el mejor front-end, simplemente poner los datos al alcance de todxs.
Un buen ejemplo sería la vuelta que le dieron @nilcrespo15 y Marc a BueStats, desde donde puedes descargar todos los datos de competiciones FEB para luego hacer tu propio análisis:
Disclaimer: antes de scrapear a lo loco, ¡avisad a quien corresponda!buestats2.com/#/stats