Tweet

Antoine Eripret

6 May, 16 tweets, 8 min read

🐸 ¿Cómo extraer contenido? 🐸

En el 🧵de hoy, te voy a dar todas las opciones que existen (y que conozco) para poder extraer contenido de una web.

Como SEO, parte de nuestra trabajo es extraer información de sitios (nuestros o ajenos).

Si quieres obtener información de una página, lo más simple es que uses esta extensión: chrome.google.com/webstore/detai…

Te permite extraer elementos similares en muy poco tiempo.

@mjcachon

Si no dominas Xpath, te aconsejo echar un vistazo a:

* builtvisible.com/seo-guide-to-x…
* mjcachon.com/blog/expresion… de @mjcachon

Si necesitas extraer información de muchas páginas, existen varias opciones.

1. Screaming Frog

No hace falta que presente la 🐸. Cuenta con una funcionalidad de "Custom Extraction" que está muy documentada: screamingfrog.co.uk/web-scraping/

Ten en cuenta que puedes usarla para portales que usan un formulario de acceso / contraseña: screamingfrog.co.uk/crawling-passw…

Una funcionalidad no tan conocida pero que es muy útil.

2. Google Sheets

Google cuenta con una funcionalidad para extraer información: IMPORTXML. Pero:
* funciona únicamente con Xpath
* falla bastante
* si tienes muchas URLs, mejor usar workspace.google.com/marketplace/ap…

@NachoMascort

También puedes crear tu propio código JS para crear nueva funcionalidades de extracción.

Algunos ejemplos: github.com/NachoSEO/SEO-f… que ha compartido @NachoMascort

Deberías cubrir la mayoría de tus casos de uso con estas opciones. Sin embargo, hay situaciones más complejas.

Por ejemplo:
* Extraer datos de portales muy protegidos como Google o Amazon
* Extraer datos con lógicas complejas

Seguimos ⬇️⬇️

@carlos_darko

1. Reducir la velocidad

Puedes reducir la velocidad de Screaming Frog por ejemplo.

Puedes extraer datos de Google siguiendo lo que explica @carlos_darko en carlosortega.page/como-detectar-….

Guay, pero cuando tienes 50.000 URLs, es un poco frustrante.

2. Usar APIs

Servicios como scaleserp.com, scrapingbee.com o nodatanobusiness.com (mencionando los que conozco y he usado) os permiten extraer datos más rápido.

Usan proxies etc... para evitar el bloqueo. Además, ¡soportan el rendering JS!

3. Usar Requests (Python)

Puedes también usar requests (docs.python-requests.org/en/master/) para extraer datos.

Gran ventaja: permite configurar las cabeceras HTTP, funcionalidad que puede ser indispensable para acceder a algunas secciones.

Existen equivalentes en otros lenguajes.

Si lo usas y no sabes qué cabeceras usar:

* puedes usar copiar tus cabeceras en Chrome
* la siguiente configuración funciona casi siempre

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

Como se integra en Python, permite agregar lógicas complejas de extracción también (condiciones).

Tengo un script hecho para extraer datos en pagesjaunes.fr (páginas amarillas francesas) que no podría hacerse en Screaming Frog.

https://twitter.com/antoineripret/status/1389194273460002819

4. Usar Selenium (Python)

Estoy ahora mismo usando Selenium (selenium-python.readthedocs.io) para un estudio que quiero hacer (

https://twitter.com/antoineripret/status/1389194273460002819

).

En pocas líneas, implemento una lógica imposible de montar de otra manera (porque Amazon, eBay protegen bastante sus datos).

Extraer datos:

* es parte del trabajo
* te permite extraer más información de tu competencia
* te permite hasta montar negocios (sí sí, tengo uno en curso así)

¿Hay programas / técnicas que usas bastante que no aparecen en este hilo? ¡Avísame!

Me encanta descubrir nuevos métodos para trabajar mejor 🤓

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @antoineripret

Antoine Eripret

@antoineripret

28 Apr

👊 SEO in-house vs agencia 👊

En el 🧵 de hoy, te voy a explicar cuáles son las diferencias principales entre los dos. El puesto es el mismo, pero realmente son trabajos bastante diferentes.

Y es importante saber lo que te corresponde más.

@seocom_agency

1. Diversidad

Lo que más extraño de mis años en @seocom_agency es la diversidad de los clientes. Problemáticas & objetivos diferentes, que te permiten aprender muy rápido.

De hecho, siempre recomiendo empezar en agencia por el mismo motivo: se aprende más (en mi opinión).

2. Datos

Si trabajas en agencia y por mucho que firmes un acuerdo de confidencialidad, tener acceso a los datos de tus clientes siempre es un problema. Puedes esperar semanas antes de tener acceso hasta al Search Console. Y hay datos que no te van a querer compartir.

Read 11 tweets

Antoine Eripret

@antoineripret

8 Apr

🐍 Python y SEO 🐍

Python es el lenguaje a la moda en nuestro sector. Yo mismo lo uso bastante.

¿Es útil? ¿Realmente vale la pena que inviertas tiempo para aprenderlo?

Si te interesa y tienes estas preguntas, este 🧵es para ti.

Empezaré con una cosa: saber Python NO ES y no será NUNCA un requisito para vivir del SEO.

Si alguien te lo dice, no entiende el SEO o quiere crear una barrera a la entrada que no existe.

Ahora, ¿por qué lo aprendí? Porque es una herramienta práctica para:

* manipular datos
* usar APIs
* hacer srapeo avanzado (que no permite Screaming Frog)

Me encanta Excel / Sheets, pero no cubren todos mis usos.

Read 9 tweets

Antoine Eripret

@antoineripret

6 Apr

⚡️ Expresiones regulares (REGEX) ⚡️

En el🧵de hoy, te voy a enseñar algunas expresiones regulares simples para que puedas empezar a usarlas ya. Ahorrán mucho tiempo, y dominar algunas te ayudará.

No para posicionar, pero para trabajar de manera más eficiente.

https://twitter.com/antoineripret/status/1373961375714844675

🤷‍♂️¿Que son las expresiones regulares (REGEX)? 🤷‍♂️

Sirven para describir cadenas de texto, números y caracteres especiales con el fin de buscarlas o manipularlas.

Se pueden usar en la gran mayoría de las herramientas, como por ejemplo Sheets:

https://twitter.com/antoineripret/status/1373961375714844675

Las REGEX pueden asustar, pero te voy a detallar cuáles son las más comunes y qué hacen.

Usaré regex101.com en mi pantallazos, que te permite validar tus REGEX de manera sencilla.

Read 14 tweets

Antoine Eripret

@antoineripret

30 Mar

🌐¿Cuáles son las mejores extensiones de Chrome? 🌐

En el 🧵de hoy, te voy a listar las extensiones principales que uso para trabajar de manera eficiente con Google Chrome.

Las extensiones son indispensables y no podría trabajar sin ellas la verdad.

1. Extensity

Permite activar / desativar extensiones en un clic. Muy útil cuando tienes decenas de extensiones pero que no usas la mayoría a menudo.

chrome.google.com/webstore/detai…

2. Google Search Console Full Width

Su nombre lo dice todo: permite aprovechar de todo el espacio disponible en tu pantalla para aumentar el tamaño de la gráfica con la UI de GSC.

chrome.google.com/webstore/detai…

Read 19 tweets

Antoine Eripret

@antoineripret

22 Mar

🤓Fórmulas de Sheets esenciales en SEO🤓

En el 🧵de hoy, te voy a detallar las fórmulas que me permiten trabajar de manera eficiente en Sheets.

La mayoría se pueden usar también en Excel, pero no todas.

1. BUSCARV

LA fórmula que tienes que dominar porque te permite cruzar datos. Muy útiles para combinar datos de Search Console y Analytics.

La tienes que dominar. Te aconsejo leer benlcollins.com/spreadsheets/v… si no es el caso.

2. SPLIT

No la más conocida, pero muy útil cuando manejas URLs. Permite dividir texto en columnas.

Puedes por ejemplo extraer en una fórmula las diferentes carpetas de una URL.

Read 11 tweets

Antoine Eripret

@antoineripret

11 Feb

💡 Tip del día: redirecciones 💡

Cuando trabajaba en agencia, algunos clientes entraban después de una migración complicada, y una de las primeras tareas siempre era arreglar o implementar redirecciones.

¿Cómo accelerar este proceso que a nadie nos gusta?

Abro corto🧵

Si tienes suerte, puedes definir equivalentes entre tu estructura antigua y nueva usando algo (un elemento de la URL, del código fuente, ...).

Pero no siempre es tan fácil.

Entonces, ¿qué hacemos?

1. Recuperamos un listado de URLs antiguas. Puedes usar el histórico de Google Analytics pero también la API de archive.org:

web.archive.org/cdx/search/cdx…

Acuérdate de conservar únicamente las URLs que tienes que redirgir 😉