💥14 herramientas secretas impulsadas por #RStats para ahorrar tiempo y esfuerzo en tus proyectos de datos (¡No te lo pierdas!):👀
1️⃣ ¡Edita tus datos de forma interactiva (y guarda el código)! 👀
📦 'editData' es un complemento de RStudio para editar un data.frame o un tibble de forma interactiva
🔗 buff.ly/3U5Tgjy
3️⃣ ¡Elige los colores para tus gráficos de forma interactiva!
📦colourpicker te ayuda a elegir el color y lo actualiza en tiempo real para que puedas ver los cambios de inmediato
🔗 github.com/daattali/colou…
4️⃣ ¡Edita los themes de ggplot2 a golpe de click y personaliza tus gráficos!
📦 ggThemeAssist te permite elegir/ajustar cualquier detalle de tus gráficos
🔗 github.com/calligross/ggt…
8️⃣ ¡Convierte tus análisis en documentos, informes, presentaciones y tableros reproducibles y de alta calidad!
✅ #RMarkdown (o #Quarto) une texto, código y resultados en un único documento
¡Adiós copy & paste, adiós errores!
1️⃣1️⃣ ¡Visualiza paso a paso tus canalizaciones de datos!👀
📦ViewPipeSteps crea pestañas con la vista de datos con los resultados de las funciones encadenadas en tuberías (pipes %>%)
🔗 github.com/daranzolin/Vie…
1️⃣2️⃣ Analiza de manera sencilla las expresiones regulares
- Crea interactivamente tu expresión regular
- Busca coincidencia de cadenas
- Consulta la ayuda interactiva y los recursos incluidos para aprender expresiones regulares
🔗 github.com/gadenbuie/rege… #rstats#datamanagement
1️⃣3️⃣ ¡Si quieres estar a la última con todas las novedades de paquetes de #RStats apunta este addin!💥
- Busca paquetes relevantes
- Obtén metadatos del paquete
- Descubre paquetes
- Mantente al día con CRAN
🔗 buff.ly/2QBkrVP #ML#IA#BigData#datamining#programming
1️⃣4️⃣¡Integra #chatgpt3 en tus análisis de datos con #RStats!
📦gpttools incluye:
📄comentarios de roxygen
💬código de explicación
🧪sugiere pruebas unitarias para funciones
🚀convierte scripts en funciones reutilizables
🔗 github.com/JamesHWade/gpt… #ChatGPT#AI#ML#tech#Data
😉Sígueme para obtener más herramientas y recursos de #DataScience#ML#IA#RStats y aprende las mejores técnicas y enfoques.
¿Cuál es la herramienta que más te ha gustado de esta lista?, ¡Comenta abajo!👇
🎯 ¿Quieres que tus clusters realmente representen la estructura de tus datos? Entonces no te olvides de escalar.
💡 Escalar bien tus datos puede cambiar radicalmente los resultados que obtienes. Aquí te explico por qué y cómo hacerlo mejor. 👇
#MachineLearning #DataScience
🧠 En el análisis de datos, hay decisiones que parecen “detalles técnicos” pero que cambian radicalmente los resultados. El escalado de características (feature scaling) es una de ellas. ¿Por qué es tan crucial cuando usamos algoritmos como el k-means?
#clustering #ML #KMeans
🔍 k-means agrupa observaciones minimizando distancias (normalmente euclidianas) a los centroides. ¿El problema? Si tus variables están en unidades diferentes (e.g. edad e ingresos), las de mayor rango dominan el cálculo de distancias. Resultado: clústeres sesgados.💥
📊 Errores comunes al analizar e interpretar datos (y cómo evitarlos)
En plena era de los datos, cometer errores al analizarlos puede salir muy caro.
👇🧵 Aquí tienes un repaso de los errores más comunes.
#stats #datascience #analytics #rstats
🔍 1. No tener claro el objetivo del estudio
¿Estás describiendo, explicando o prediciendo? No es lo mismo.
Ese objetivo define qué datos necesitas, cómo analizarlos y cómo interpretar los resultados.
📏 2. Usar muestras demasiado pequeñas
Muestras pequeñas pueden llevar a sobreajuste, baja precisión y falta de potencia.
Las reglas del pulgar no sirven. Calcula el tamaño muestral con fundamento.
🚨 ¿Todavía haces análisis complejos en hojas de cálculo? ¡🚨
Las hojas de cálculo son omnipresentes, versátiles y familiares, pero cuando se trata de análisis de datos complejos o decisiones críticas… se transforman en una bomba de relojería.💣👇🧵
#rstats #excel #spss #stats
💥 La cruda realidad: los errores son la norma, no la excepción
Estudios sistemáticos han demostrado que los errores en hojas de cálculo son tan comunes como invisibles. No hablamos solo de equivocarse al teclear un número. Hablamos de Errores lógicos, Fórmulas, Cambios, etc.!
Según Panko (2008), en grandes hojas de cálculo, no se trata de si hay errores, sino de cuántos hay. 💥
Y esto no es anecdótico:
🔍 ¿Qué es la ordenación restringida?
👀 Es una técnica de análisis multivariante que sirve para explorar cómo se relacionan múltiples variables de respuesta (e.g. abundancia de especies) con múltiples variables explicativas (e.g. condiciones ambientales).
Te cuento más 👇🧵
💡A diferencia de la ordenación no restringida (e.g. PCA/CA), aquí forzamos la representación de los datos a que esté condicionada por variables externas. Buscamos los ejes que mejor explican la variación, pero solo dentro del espacio definido por las variables explicativas.
🌱 Ejemplo ecológico clásico:
Imagina dos matrices:
- Matriz Y: presencia o abundancia de especies en diferentes sitios.
- Matriz X: variables ambientales medidas en esos mismos sitios (pH, altitud, nutrientes, temperatura…).
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵
Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇
🧪 Diagnóstico gráfico: lo que todo analista debería revisar:
🔍1️⃣ Residuos vs. valores ajustados
✔️ Ideal: dispersión aleatoria alrededor de 0 → indica linealidad y homocedasticidad
❌ Problemas:
Curvas = fallo en la linealidad
Forma de embudo = heterocedasticidad
🛠Solución: agrega términos no lineales o usa modelos con varianza flexible
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔
🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵
#DataScience #stats
📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos.
✨ La RESPUESTA está en el CÁLCULO del tamaño de muestra.
Objetivo: Tener suficientes muestras para detectar un efecto real sin exagerar con muestras innecesarias.
🔑 Factores clave en el cálculo del tamaño de muestra: