💥14 herramientas secretas impulsadas por #RStats para ahorrar tiempo y esfuerzo en tus proyectos de datos (¡No te lo pierdas!):👀
1️⃣ ¡Edita tus datos de forma interactiva (y guarda el código)! 👀
📦 'editData' es un complemento de RStudio para editar un data.frame o un tibble de forma interactiva
🔗 buff.ly/3U5Tgjy
3️⃣ ¡Elige los colores para tus gráficos de forma interactiva!
📦colourpicker te ayuda a elegir el color y lo actualiza en tiempo real para que puedas ver los cambios de inmediato
🔗 github.com/daattali/colou…
4️⃣ ¡Edita los themes de ggplot2 a golpe de click y personaliza tus gráficos!
📦 ggThemeAssist te permite elegir/ajustar cualquier detalle de tus gráficos
🔗 github.com/calligross/ggt…
8️⃣ ¡Convierte tus análisis en documentos, informes, presentaciones y tableros reproducibles y de alta calidad!
✅ #RMarkdown (o #Quarto) une texto, código y resultados en un único documento
¡Adiós copy & paste, adiós errores!
1️⃣1️⃣ ¡Visualiza paso a paso tus canalizaciones de datos!👀
📦ViewPipeSteps crea pestañas con la vista de datos con los resultados de las funciones encadenadas en tuberías (pipes %>%)
🔗 github.com/daranzolin/Vie…
1️⃣2️⃣ Analiza de manera sencilla las expresiones regulares
- Crea interactivamente tu expresión regular
- Busca coincidencia de cadenas
- Consulta la ayuda interactiva y los recursos incluidos para aprender expresiones regulares
🔗 github.com/gadenbuie/rege… #rstats#datamanagement
1️⃣3️⃣ ¡Si quieres estar a la última con todas las novedades de paquetes de #RStats apunta este addin!💥
- Busca paquetes relevantes
- Obtén metadatos del paquete
- Descubre paquetes
- Mantente al día con CRAN
🔗 buff.ly/2QBkrVP #ML#IA#BigData#datamining#programming
1️⃣4️⃣¡Integra #chatgpt3 en tus análisis de datos con #RStats!
📦gpttools incluye:
📄comentarios de roxygen
💬código de explicación
🧪sugiere pruebas unitarias para funciones
🚀convierte scripts en funciones reutilizables
🔗 github.com/JamesHWade/gpt… #ChatGPT#AI#ML#tech#Data
😉Sígueme para obtener más herramientas y recursos de #DataScience#ML#IA#RStats y aprende las mejores técnicas y enfoques.
¿Cuál es la herramienta que más te ha gustado de esta lista?, ¡Comenta abajo!👇
📊 ¿Cansado de usar iris y mtcars? Aquí tienes datasets MODERNOS listos para usar.
Años viendo los mismos ejemplos, es hora de renovar nuestro arsenal didáctico. Estos datasets no solo son más actuales, sino que abordan problemas reales que conectan con las preocupaciones de hoy.
🎯 PARA PRINCIPIANTES (reemplazos directos)
- palmerpenguins::penguins (el nuevo iris)
- qatarcars (nuevo mtcars::dataset o mpg::ggplot2)
- ggplot2::diamonds (misterioso)
- dplyr::starwars (divertido)
⚽ DEPORTES
- engsoccerdata::england → 140+ años de fútbol inglés y europeo
- worldfootballR → Datos de FBref, Transfermarkt, Understat
- nbastatR → Estadísticas NBA completas
- datasets::Formaldehyde → Datos olímpicos
- decathlon2::factoextra → Rendimiento de los atletas
🎯 ¿Cuánto es suficiente?
La eterna pregunta cuando vas a diseñar un estudio o experimento:
¿Con 30 muestras basta? ¿Y si pongo 100 para estar seguro? ¿O mejor 300 para que nadie me critique? 🤯
La verdad es que… ni muy pocas ni demasiadas.🧵
#stats #Estadística #DataScience
Un tamaño de muestra mal elegido puede arruinar meses de trabajo:
📉 Demasiado pequeño → corres el riesgo de que un efecto real pase desapercibido
💸 Demasiado grande → desperdicias tiempo, dinero y energía
🏆 Buscamos el punto justo: como el cuento de Ricitos de Oro.
¿Cómo se logra? Para el cálculo de tamaño de muestra combina 3 ingredientes clave:
1️⃣ potencia estadística → e.g. 80%. Es la “fuerza” de tu estudio para no pasar de largo un hallazgo real.
2️⃣ nivel de significación (α) → e.g. 0.05. Margen que aceptas para un falso positivo.
🎨 ggplot2 es mucho más que un sistema de gráficos en R: es un ecosistema entero
Muchos conocen ggplot2 por su sintaxis elegante para crear gráficos, pero pocos exploran su universo de extensiones, que amplían sus capacidades y permiten llevar la visualización a otro nivel.🧵👇
🔹 Algunas familias de extensiones que vale la pena conocer:
1️⃣ Personalización de temas y estilos
ggthemes → colecciones de temas predefinidos (Excel, The Economist, Wall Street Journal).
hrbrthemes → tipografías modernas y gráficas limpias para presentaciones.
#RStats
2️⃣ Nuevos tipos de geoms
ggforce → diagramas de fuerza, splines, facetado avanzado.
ggridges → gráficas de densidad en crestas (muy útiles para distribuciones temporales o comparativas).
ggalluvial → diagramas de Sankey/alluviales para flujos y transiciones.
🔄Tus datos también necesitan mantenimiento: 5 claves para actualizarlos sin perder reproducibilidad👇
En investigación, los datos no son estáticos. Se corrigen, se amplían y evolucionan con el tiempo. El desafío: mantenerlos vivos sin sacrificar transparencia ni reproducibilidad
Un reciente artículo publicado en Nature por , nos recomienda algunas buenas prácticas que todo científico de datos o investigador puede aplicar:
#GestiónDeDatos
💡 En R es posible armar flujos de trabajo completos con GitHub + Zenodo para automatizar releases, asignar DOIs a cada versión y dejar un historial claro de los cambios. Esto no solo es útil para la comunidad: tú mismo eres tu mayor colaborador en el futuro.
🔥El verdadero cuello de botella en analítica: hojas de cálculo caóticas
Quien ha trabajado en análisis de datos conoce esta escena: te llega un Excel “con todo lo que necesitas” para empezar el proyecto. Abres el archivo y, en lugar de datos listos para usar, encuentras el caos.
👉 Columnas con títulos duplicados o mal escritos.
👉 Fechas guardadas como texto o mezcladas con diferentes formatos (dd/mm/aaaa y mm/dd/aaaa conviviendo en la misma columna).
👉 Valores numéricos con comas y puntos intercalados, imposibles de interpretar sin limpieza manual.
👉 Filas con totales, subtotales y celdas en blanco que confunden
👉 Colores, negritas y notas al pie
👉 Unidades mezcladas: €, USD y % en la misma columna
👉 Celdas fusionadas ilegibles
Lo que debería ser un dataset se convierte en una tarea desesperante.
🚨 Los mitos de los intervalos de confianza (IC) 🚨
💡 Los IC son muy populares en investigación, pero la mayoría de las personas los malinterpreta… y eso puede llevar a conclusiones equivocadas. 🧠
Aquí van algunos mitos que me gustaría aclarar:🧵👇
Mito 1️⃣
❌ "Un IC del 95% tiene un 95% de probabilidad de contener el valor verdadero"
✅ Realidad: No, no es así. Si repites el experimento muchas veces, el 95% de los IC que calcules contendrán el valor verdadero.
Es sobre procedimientos repetidos, no sobre un único intervalo😬
Mito 2️⃣
❌ "Mientras más estrecho el IC, más precisa es mi estimación"
✅ Realidad: El ancho del IC depende de:
- Variabilidad de los datos: mayor varianza → IC más ancho
- Tamaño de la muestra: más grande → IC más estrecho
- Nivel de confianza: más alto → IC más ancho