rtve.es/alacarta/video…
El buscador me ofrece 114.912 distintos, pero hay mucha morralla: fragmentos, avances... Utilizo el filtro "Tipo" para quedarme solo con los telediarios completos. Salen 12.271: 638 páginas. Las quiero 😎

Si todo va bien, con eso tendré materia prima para empezar a cacharrear de verdad. De momento ha bajado 253 páginas de 638. Voy a dar un paseo.
¿Para qué complicarse la vida?
La regex: gist.github.com/JaimeObregon/d…

He pensado que para compartirlo es mejor subirlo a una hoja de cálculo en la nube. Aquí la tenéis: bit.ly/35YcEFQ
Seguiré destripándolos y compartiendo. Sígueme si quieres ver el proceso. Haz RT para difundir 👍

Tras suprimir los de lengua de signos me salen 5.841. Son estos: gist.github.com/JaimeObregon/d…

@marianorajoy: 13.273 menciones en 6 años.
@sanchezcastejon: 6.826
@KRLS Puigdemont: 4.138
Artur Mas: 2613
@PabloIglesias: 2.555
¡Ojo! Resultados de mi escrutinio todavía provisionales 😂
— "Bárcenas": 894 menciones.
— "Urdangarín": 782.
— "Cataluña": ¡...récord! 17.600
— "Cantabria": 3.135.
— "Galicia": 6.526
— "Buenas noches": 4.176 veces.
Sígueme si quieres que saque más miga a los datos. Haz retuit a este tuit inicial si quieres darme ánimos. Hago esto en mi tiempo libre y por pasión✌️
🤓 5183 veces. Aquí están todas: gist.github.com/JaimeObregon/b…
Este análisis es muy simple: quisiera hacer un estudio más útil, más elaborado… pero ahora soy un mero humano con sueño que hace esto por deporte.




¿Cuántas veces crees que se ha dicho "mierda" 💩 en un telediario de RTVE desde 2014?
Pero los políticos también son deslenguados. Por ejemplo, el alcalde que dijo: "La mierda ya no viene a Sestao; si no, la echo yo. La echo yo." Y claro, la lió.
Luego se disculpó así:

Pero es un fichero de 121 MB y ni Google ni LibreOffice pueden con él.


¿Igual lo cuelgo en un repo de Github?
Lo he obtenido procesando los subtítulos existentes en el portal de RTVE. ¡Es oro!

También sería brutal hacer "Named Entity Recognition" (NER) sobre estos textos 🤤

Y siguiendo con las curiosidades... hay muchas formas de saludar a los telespectadores pero... ¿cuáles son las más frecuentes? Estas:

Es curioso pero inútil™️ saberlo 😜


Seguid a la Fundación @civio y a los enormes @dcabo y @evabelmonte (et al.) — Hacen un trabajo enorme en pro de la transparencia ❤️
