rtve.es/alacarta/video…
El buscador me ofrece 114.912 distintos, pero hay mucha morralla: fragmentos, avances... Utilizo el filtro "Tipo" para quedarme solo con los telediarios completos. Salen 12.271: 638 páginas. Las quiero 😎
![Image](https://pbs.twimg.com/media/EOUYv5CXUAExphJ.jpg)
Si todo va bien, con eso tendré materia prima para empezar a cacharrear de verdad. De momento ha bajado 253 páginas de 638. Voy a dar un paseo.
¿Para qué complicarse la vida?
La regex: gist.github.com/JaimeObregon/d…
![Image](https://pbs.twimg.com/media/EOWtkh0X4AAPMQD.jpg)
He pensado que para compartirlo es mejor subirlo a una hoja de cálculo en la nube. Aquí la tenéis: bit.ly/35YcEFQ
Seguiré destripándolos y compartiendo. Sígueme si quieres ver el proceso. Haz RT para difundir 👍
![Image](https://pbs.twimg.com/media/EOW2YmgXUAYIAl8.png)
Tras suprimir los de lengua de signos me salen 5.841. Son estos: gist.github.com/JaimeObregon/d…
![Image](https://pbs.twimg.com/media/EOlX-5rWAAAulyF.jpg)
@marianorajoy: 13.273 menciones en 6 años.
@sanchezcastejon: 6.826
@KRLS Puigdemont: 4.138
Artur Mas: 2613
@PabloIglesias: 2.555
¡Ojo! Resultados de mi escrutinio todavía provisionales 😂
— "Bárcenas": 894 menciones.
— "Urdangarín": 782.
— "Cataluña": ¡...récord! 17.600
— "Cantabria": 3.135.
— "Galicia": 6.526
— "Buenas noches": 4.176 veces.
Sígueme si quieres que saque más miga a los datos. Haz retuit a este tuit inicial si quieres darme ánimos. Hago esto en mi tiempo libre y por pasión✌️
🤓 5183 veces. Aquí están todas: gist.github.com/JaimeObregon/b…
Este análisis es muy simple: quisiera hacer un estudio más útil, más elaborado… pero ahora soy un mero humano con sueño que hace esto por deporte.
![Image](https://pbs.twimg.com/media/EOmRHe3VAAA62nK.jpg)
![Image](https://pbs.twimg.com/media/EOmRHeXXkAA-EIq.jpg)
![Image](https://pbs.twimg.com/media/EOmRHeTWoAItiPl.jpg)
![Image](https://pbs.twimg.com/media/EOmRHedWoAAIR6_.jpg)
¿Cuántas veces crees que se ha dicho "mierda" 💩 en un telediario de RTVE desde 2014?
Pero los políticos también son deslenguados. Por ejemplo, el alcalde que dijo: "La mierda ya no viene a Sestao; si no, la echo yo. La echo yo." Y claro, la lió.
Luego se disculpó así:
![Image](https://pbs.twimg.com/media/EOzl-pyWsAAg3ZC.jpg)
Pero es un fichero de 121 MB y ni Google ni LibreOffice pueden con él.
![Image](https://pbs.twimg.com/media/EPNeYEDXkAUANuW.png)
![Image](https://pbs.twimg.com/media/EPNeYEfX0AAGata.jpg)
¿Igual lo cuelgo en un repo de Github?
Lo he obtenido procesando los subtítulos existentes en el portal de RTVE. ¡Es oro!
![Image](https://pbs.twimg.com/media/EP3X36uXUAI86cM.png)
También sería brutal hacer "Named Entity Recognition" (NER) sobre estos textos 🤤
![Image](https://pbs.twimg.com/media/EP3b22DXsAo9Ks0.jpg)
Y siguiendo con las curiosidades... hay muchas formas de saludar a los telespectadores pero... ¿cuáles son las más frecuentes? Estas:
![Image](https://pbs.twimg.com/media/EP3hM5SWsAMtP_g.jpg)
Es curioso pero inútil™️ saberlo 😜
![Image](https://pbs.twimg.com/media/EP3hx3XXUAU6atO.jpg)
![Image](https://pbs.twimg.com/media/EP3idGwW4AEGtte.jpg)
Seguid a la Fundación @civio y a los enormes @dcabo y @evabelmonte (et al.) — Hacen un trabajo enorme en pro de la transparencia ❤️
![Image](https://pbs.twimg.com/media/EP3kNySWsAERoH1.jpg)