🐸 ¿Cómo extraer contenido? 🐸

En el 🧵de hoy, te voy a dar todas las opciones que existen (y que conozco) para poder extraer contenido de una web.

Como SEO, parte de nuestra trabajo es extraer información de sitios (nuestros o ajenos).
Si quieres obtener información de una página, lo más simple es que uses esta extensión: chrome.google.com/webstore/detai…

Te permite extraer elementos similares en muy poco tiempo. Image
Si no dominas Xpath, te aconsejo echar un vistazo a:

* builtvisible.com/seo-guide-to-x…
* mjcachon.com/blog/expresion… de @mjcachon
Si necesitas extraer información de muchas páginas, existen varias opciones.

1. Screaming Frog

No hace falta que presente la 🐸. Cuenta con una funcionalidad de "Custom Extraction" que está muy documentada: screamingfrog.co.uk/web-scraping/ Image
Ten en cuenta que puedes usarla para portales que usan un formulario de acceso / contraseña: screamingfrog.co.uk/crawling-passw…

Una funcionalidad no tan conocida pero que es muy útil. Image
2. Google Sheets

Google cuenta con una funcionalidad para extraer información: IMPORTXML. Pero:
* funciona únicamente con Xpath
* falla bastante
* si tienes muchas URLs, mejor usar workspace.google.com/marketplace/ap… Image
También puedes crear tu propio código JS para crear nueva funcionalidades de extracción.

Algunos ejemplos: github.com/NachoSEO/SEO-f… que ha compartido @NachoMascort
Deberías cubrir la mayoría de tus casos de uso con estas opciones. Sin embargo, hay situaciones más complejas.

Por ejemplo:
* Extraer datos de portales muy protegidos como Google o Amazon
* Extraer datos con lógicas complejas

Seguimos ⬇️⬇️
1. Reducir la velocidad

Puedes reducir la velocidad de Screaming Frog por ejemplo.

Puedes extraer datos de Google siguiendo lo que explica @carlos_darko en carlosortega.page/como-detectar-….

Guay, pero cuando tienes 50.000 URLs, es un poco frustrante. Image
2. Usar APIs

Servicios como scaleserp.com, scrapingbee.com o nodatanobusiness.com (mencionando los que conozco y he usado) os permiten extraer datos más rápido.

Usan proxies etc... para evitar el bloqueo. Además, ¡soportan el rendering JS!
3. Usar Requests (Python)

Puedes también usar requests (docs.python-requests.org/en/master/) para extraer datos.

Gran ventaja: permite configurar las cabeceras HTTP, funcionalidad que puede ser indispensable para acceder a algunas secciones.

Existen equivalentes en otros lenguajes. Image
Si lo usas y no sabes qué cabeceras usar:

* puedes usar copiar tus cabeceras en Chrome
* la siguiente configuración funciona casi siempre

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36' Image
Como se integra en Python, permite agregar lógicas complejas de extracción también (condiciones).

Tengo un script hecho para extraer datos en pagesjaunes.fr (páginas amarillas francesas) que no podría hacerse en Screaming Frog.
4. Usar Selenium (Python)

Estoy ahora mismo usando Selenium (selenium-python.readthedocs.io) para un estudio que quiero hacer ().

En pocas líneas, implemento una lógica imposible de montar de otra manera (porque Amazon, eBay protegen bastante sus datos). Image
Extraer datos:

* es parte del trabajo
* te permite extraer más información de tu competencia
* te permite hasta montar negocios (sí sí, tengo uno en curso así)
¿Hay programas / técnicas que usas bastante que no aparecen en este hilo? ¡Avísame!

Me encanta descubrir nuevos métodos para trabajar mejor 🤓

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Antoine Eripret

Antoine Eripret Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @antoineripret

28 Apr
👊 SEO in-house vs agencia 👊

En el 🧵 de hoy, te voy a explicar cuáles son las diferencias principales entre los dos. El puesto es el mismo, pero realmente son trabajos bastante diferentes.

Y es importante saber lo que te corresponde más.
1. Diversidad

Lo que más extraño de mis años en @seocom_agency es la diversidad de los clientes. Problemáticas & objetivos diferentes, que te permiten aprender muy rápido.

De hecho, siempre recomiendo empezar en agencia por el mismo motivo: se aprende más (en mi opinión).
2. Datos

Si trabajas en agencia y por mucho que firmes un acuerdo de confidencialidad, tener acceso a los datos de tus clientes siempre es un problema. Puedes esperar semanas antes de tener acceso hasta al Search Console. Y hay datos que no te van a querer compartir.
Read 11 tweets
8 Apr
🐍 Python y SEO 🐍

Python es el lenguaje a la moda en nuestro sector. Yo mismo lo uso bastante.

¿Es útil? ¿Realmente vale la pena que inviertas tiempo para aprenderlo?

Si te interesa y tienes estas preguntas, este 🧵es para ti.
Empezaré con una cosa: saber Python NO ES y no será NUNCA un requisito para vivir del SEO.

Si alguien te lo dice, no entiende el SEO o quiere crear una barrera a la entrada que no existe.
Ahora, ¿por qué lo aprendí? Porque es una herramienta práctica para:

* manipular datos
* usar APIs
* hacer srapeo avanzado (que no permite Screaming Frog)

Me encanta Excel / Sheets, pero no cubren todos mis usos.
Read 9 tweets
6 Apr
⚡️ Expresiones regulares (REGEX) ⚡️

En el🧵de hoy, te voy a enseñar algunas expresiones regulares simples para que puedas empezar a usarlas ya. Ahorrán mucho tiempo, y dominar algunas te ayudará.

No para posicionar, pero para trabajar de manera más eficiente.
🤷‍♂️¿Que son las expresiones regulares (REGEX)? 🤷‍♂️

Sirven para describir cadenas de texto, números y caracteres especiales con el fin de buscarlas o manipularlas.

Se pueden usar en la gran mayoría de las herramientas, como por ejemplo Sheets:

Las REGEX pueden asustar, pero te voy a detallar cuáles son las más comunes y qué hacen.

Usaré regex101.com en mi pantallazos, que te permite validar tus REGEX de manera sencilla.
Read 14 tweets
30 Mar
🌐¿Cuáles son las mejores extensiones de Chrome? 🌐

En el 🧵de hoy, te voy a listar las extensiones principales que uso para trabajar de manera eficiente con Google Chrome.

Las extensiones son indispensables y no podría trabajar sin ellas la verdad.
1. Extensity

Permite activar / desativar extensiones en un clic. Muy útil cuando tienes decenas de extensiones pero que no usas la mayoría a menudo.

chrome.google.com/webstore/detai…
2. Google Search Console Full Width

Su nombre lo dice todo: permite aprovechar de todo el espacio disponible en tu pantalla para aumentar el tamaño de la gráfica con la UI de GSC.

chrome.google.com/webstore/detai…
Read 19 tweets
22 Mar
🤓Fórmulas de Sheets esenciales en SEO🤓

En el 🧵de hoy, te voy a detallar las fórmulas que me permiten trabajar de manera eficiente en Sheets.

La mayoría se pueden usar también en Excel, pero no todas.
1. BUSCARV

LA fórmula que tienes que dominar porque te permite cruzar datos. Muy útiles para combinar datos de Search Console y Analytics.

La tienes que dominar. Te aconsejo leer benlcollins.com/spreadsheets/v… si no es el caso.
2. SPLIT

No la más conocida, pero muy útil cuando manejas URLs. Permite dividir texto en columnas.

Puedes por ejemplo extraer en una fórmula las diferentes carpetas de una URL.
Read 11 tweets
11 Feb
💡 Tip del día: redirecciones 💡

Cuando trabajaba en agencia, algunos clientes entraban después de una migración complicada, y una de las primeras tareas siempre era arreglar o implementar redirecciones.

¿Cómo accelerar este proceso que a nadie nos gusta?

Abro corto🧵
Si tienes suerte, puedes definir equivalentes entre tu estructura antigua y nueva usando algo (un elemento de la URL, del código fuente, ...).

Pero no siempre es tan fácil.

Entonces, ¿qué hacemos?
1. Recuperamos un listado de URLs antiguas. Puedes usar el histórico de Google Analytics pero también la API de archive.org:

web.archive.org/cdx/search/cdx…

Acuérdate de conservar únicamente las URLs que tienes que redirgir 😉
Read 7 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(