Tweet

Antoine Eripret

28 Jun, 15 tweets, 8 min read

⏰¿Cómo reactivar un dominio expirado rápido? ⏰

Acabas de capturar un dominio expirado y quieres recuperar y subir los contenidos que están en archive.org.

Cómo hacerlo si tienes muchas páginas sin perder demasiado tiempo?

En este hilo, te explico todo.

Voy a suponer en este hilo que quiero reactivar mi propio blog.

Un caso bastante improbable pero así tenemos un ejemplo simple con el cuál puedes jugar también.

Etapa 1: Consultar la API de archive.org

Usando la API de https://t.co/ORlt4dS4F8, podemos obtener una lista única de URL para un dominio.

En mi ejemplo, sería web.archive.org/cdx/search/cdx…

Si te fijas, incluye por defecto contenido HTML pero también CSS, JS etc...

Aquí, queremos únicamente las páginas HTML, así que toca filtrar un poco.

Esta lista incluye la URL para las cuáles archive.org tiene contenido.

Usando otra API, podemos obtener el enlace directa del snapshot de https://t.co/ORlt4dS4F8.

Por ejemplo: archive.org/wayback/availa…

Al final de esta etapa, debes tener una tabla con las URLs originales y la URL del snapshot de archive.org

Yo lo hago con Python y requests (pypi.org/project/reques…), pero lo puedes hacer como quieras, lo que importa es el resultado.

Etapa 2: Identificar el contenido por extraer

Usando unos contenidos de ejemplo, debes identificar el contenido que quieres extraer.

En este ejemplo, quiero extraer todo el contenido HTML dentro de la etiqueta <article> cuya clase contiene "post".

Etapa 3: Extraer el contenido

Usando las URLs de los snapshots de archive.org, puedes extraer el contenido que te interesa.

Lo puedes hacer con Screaming Frog o lo que quieras, pero es importante que te extraiga el contenido HTML y no únicamente el texto.

Etapa 4: Convertir el contenido en HTML limpio

No quieres conservar la estructura HTML original. Quieres un código HTML limpio, sin las clases etc... que usaba el contenido original.

Uso pypi.org/project/markdo… y pypi.org/project/Markdo… para hacerlo a escala.

Etapa 5: Descargar las imágenes

El código HTML descargado incluirá referencias a imágenes (etiquetas <img> o <figure>).

Debemos:

1. Identificarlas
2. Descargarlas si podemos
3. Eliminarlas del código HTML si no podemos descargarlas

Si usas Python, esta lógica es muy fácil de implementar con docs.python-requests.org/en/master/ y crummy.com/software/Beaut….

El ahorro de tiempo que supone hacerlo de manera automática es una barbaridad.

Etapa 6: Subir tus imágenes

Todavía tendrás que subir estas imágenes en tu servidor y actualizar el código HTML con la URL correcta. Si no lo haces, harás peticiones a archive.org.

Puede funcionar, pero impactará tu WPO.

Etapa 7: Actualizar el enlazado

Por defecto, todos el enlazado incluye enlaces hacia snapshots de archive.org

Tienes que manipular tu código HTML para:
1. Usar la URL correcta
2. Eliminar los enlaces internos hacía contenidos que no has podido extraer

https://twitter.com/antoineripret/status/1399676177938276352

Etapa 8: Subir los contenidos

Una vez hayas hecho todo este trabajo, puedes seguir lo que explicaba en otro hilo (

https://twitter.com/antoineripret/status/1399676177938276352

El proceso puede parece largo, pero piensa que ahorrarás muchas horas de trabajo manual (y aburrido).

Y lo podrás usar para hacer algo más interesante que copiar pegar texto.

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @antoineripret

Antoine Eripret

@antoineripret

16 Sep

🚍 Keyword research para tu web de viaje 🚍

En el hilo de hoy, te voy a explicar cómo hacer un keyword research para una hipotética web de viaje.

El proceso es bastante diferente de un keyword research clásico, ya verás.

@rubenalonsoes

En este hilo, me enfocaré en las páginas comerciales.

Para temáticas informacionales, puedes evidentemente seguir guías como miposicionamientoweb.es/keyword-resear… de @rubenalonsoes.

Para un viaje en bus, un usuario suele buscar "bus barcelona valencia" por ejemplo.

Problemas:

1. Tenemos que identificar las estructuras más comunes
2. Tenemos que identificar las rutas más populares

¿Cómo hacerlo sin perder días?

Read 11 tweets

Antoine Eripret

@antoineripret

9 Sep

🪦 Resucitar un dominio en menos de una hora 🪦

En el hilo de hoy, te voy a explicar cómo puedes resucitar un dominio con miles de contenidos en poco tiempo.

Te puede ser útil para migraciones catastróficas pero también para dominios expirados.

https://twitter.com/antoineripret/status/1409462180462817283?s=09

Ya expliqué un poco el proceso en un otro hilo (

https://twitter.com/antoineripret/status/1409462180462817283?s=09

) pero hoy daré más detalles y usaré un ejemplo real.

El ejemplo: un subdominio de la empresa Michelin, fabricante francés de neumáticos. Decidieron eliminar este subdominio hace un par de meses.

Vamos a suponer que queremos reactivar este dominio.

Read 16 tweets

Antoine Eripret

@antoineripret

16 Jun

🧩Nueva Extensión Chrome 🧩

Disponible la extensión para extraer los volúmenes de búsqueda directamente en Google Search Console: chrome.google.com/webstore/detai…

En este hilo, te explico cómo usarla.

⬇️⬇️

@jlhernando

Primero, esta extensión no hubiera podido existir sin la gran ayuda de @jlhernando y el soporte de @_fede_gomez_. ¡Unos cracks que tienes que seguir ya!

Muchas gracias a @Salva_IP, @Errioxa, @gonzaripoll, @EvaOlivaresb, @TrabajoNomada y @lolo_phoenix por el feedback.

1. Instala la extensión

Si usas Chrome, sabes cómo va. Aquí: chrome.google.com/webstore/detai…

Read 6 tweets

Antoine Eripret

@antoineripret

6 May

🐸 ¿Cómo extraer contenido? 🐸

En el 🧵de hoy, te voy a dar todas las opciones que existen (y que conozco) para poder extraer contenido de una web.

Como SEO, parte de nuestra trabajo es extraer información de sitios (nuestros o ajenos).

Si quieres obtener información de una página, lo más simple es que uses esta extensión: chrome.google.com/webstore/detai…

Te permite extraer elementos similares en muy poco tiempo.

@mjcachon

Si no dominas Xpath, te aconsejo echar un vistazo a:

* builtvisible.com/seo-guide-to-x…
* mjcachon.com/blog/expresion… de @mjcachon

Read 16 tweets

Antoine Eripret

@antoineripret

28 Apr

👊 SEO in-house vs agencia 👊

En el 🧵 de hoy, te voy a explicar cuáles son las diferencias principales entre los dos. El puesto es el mismo, pero realmente son trabajos bastante diferentes.

Y es importante saber lo que te corresponde más.

@seocom_agency

1. Diversidad

Lo que más extraño de mis años en @seocom_agency es la diversidad de los clientes. Problemáticas & objetivos diferentes, que te permiten aprender muy rápido.

De hecho, siempre recomiendo empezar en agencia por el mismo motivo: se aprende más (en mi opinión).

2. Datos

Si trabajas en agencia y por mucho que firmes un acuerdo de confidencialidad, tener acceso a los datos de tus clientes siempre es un problema. Puedes esperar semanas antes de tener acceso hasta al Search Console. Y hay datos que no te van a querer compartir.

Read 11 tweets

Antoine Eripret

@antoineripret

8 Apr

🐍 Python y SEO 🐍

Python es el lenguaje a la moda en nuestro sector. Yo mismo lo uso bastante.

¿Es útil? ¿Realmente vale la pena que inviertas tiempo para aprenderlo?

Si te interesa y tienes estas preguntas, este 🧵es para ti.

Empezaré con una cosa: saber Python NO ES y no será NUNCA un requisito para vivir del SEO.

Si alguien te lo dice, no entiende el SEO o quiere crear una barrera a la entrada que no existe.

Ahora, ¿por qué lo aprendí? Porque es una herramienta práctica para:

* manipular datos
* usar APIs
* hacer srapeo avanzado (que no permite Screaming Frog)

Me encanta Excel / Sheets, pero no cubren todos mis usos.