⏰¿Cómo reactivar un dominio expirado rápido? ⏰

Acabas de capturar un dominio expirado y quieres recuperar y subir los contenidos que están en archive.org.

Cómo hacerlo si tienes muchas páginas sin perder demasiado tiempo?

En este hilo, te explico todo.
Voy a suponer en este hilo que quiero reactivar mi propio blog.

Un caso bastante improbable pero así tenemos un ejemplo simple con el cuál puedes jugar también. Image
Etapa 1: Consultar la API de archive.org

Usando la API de https://t.co/ORlt4dS4F8, podemos obtener una lista única de URL para un dominio.

En mi ejemplo, sería web.archive.org/cdx/search/cdx… Image
Si te fijas, incluye por defecto contenido HTML pero también CSS, JS etc...

Aquí, queremos únicamente las páginas HTML, así que toca filtrar un poco. Image
Esta lista incluye la URL para las cuáles archive.org tiene contenido.

Usando otra API, podemos obtener el enlace directa del snapshot de https://t.co/ORlt4dS4F8.

Por ejemplo: archive.org/wayback/availa… Image
Al final de esta etapa, debes tener una tabla con las URLs originales y la URL del snapshot de archive.org

Yo lo hago con Python y requests (pypi.org/project/reques…), pero lo puedes hacer como quieras, lo que importa es el resultado. Image
Etapa 2: Identificar el contenido por extraer

Usando unos contenidos de ejemplo, debes identificar el contenido que quieres extraer.

En este ejemplo, quiero extraer todo el contenido HTML dentro de la etiqueta <article> cuya clase contiene "post". Image
Etapa 3: Extraer el contenido

Usando las URLs de los snapshots de archive.org, puedes extraer el contenido que te interesa.

Lo puedes hacer con Screaming Frog o lo que quieras, pero es importante que te extraiga el contenido HTML y no únicamente el texto.
Etapa 4: Convertir el contenido en HTML limpio

No quieres conservar la estructura HTML original. Quieres un código HTML limpio, sin las clases etc... que usaba el contenido original.

Uso pypi.org/project/markdo… y pypi.org/project/Markdo… para hacerlo a escala.
Etapa 5: Descargar las imágenes

El código HTML descargado incluirá referencias a imágenes (etiquetas <img> o <figure>).

Debemos:

1. Identificarlas
2. Descargarlas si podemos
3. Eliminarlas del código HTML si no podemos descargarlas
Si usas Python, esta lógica es muy fácil de implementar con docs.python-requests.org/en/master/ y crummy.com/software/Beaut….

El ahorro de tiempo que supone hacerlo de manera automática es una barbaridad.
Etapa 6: Subir tus imágenes

Todavía tendrás que subir estas imágenes en tu servidor y actualizar el código HTML con la URL correcta. Si no lo haces, harás peticiones a archive.org.

Puede funcionar, pero impactará tu WPO. Image
Etapa 7: Actualizar el enlazado

Por defecto, todos el enlazado incluye enlaces hacia snapshots de archive.org

Tienes que manipular tu código HTML para:
1. Usar la URL correcta
2. Eliminar los enlaces internos hacía contenidos que no has podido extraer
Etapa 8: Subir los contenidos

Una vez hayas hecho todo este trabajo, puedes seguir lo que explicaba en otro hilo ().
El proceso puede parece largo, pero piensa que ahorrarás muchas horas de trabajo manual (y aburrido).

Y lo podrás usar para hacer algo más interesante que copiar pegar texto.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Antoine Eripret

Antoine Eripret Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @antoineripret

16 Sep
🚍 Keyword research para tu web de viaje 🚍

En el hilo de hoy, te voy a explicar cómo hacer un keyword research para una hipotética web de viaje.

El proceso es bastante diferente de un keyword research clásico, ya verás.
En este hilo, me enfocaré en las páginas comerciales.

Para temáticas informacionales, puedes evidentemente seguir guías como miposicionamientoweb.es/keyword-resear… de @rubenalonsoes.
Para un viaje en bus, un usuario suele buscar "bus barcelona valencia" por ejemplo.

Problemas:

1. Tenemos que identificar las estructuras más comunes
2. Tenemos que identificar las rutas más populares

¿Cómo hacerlo sin perder días?
Read 11 tweets
9 Sep
🪦 Resucitar un dominio en menos de una hora 🪦

En el hilo de hoy, te voy a explicar cómo puedes resucitar un dominio con miles de contenidos en poco tiempo.

Te puede ser útil para migraciones catastróficas pero también para dominios expirados.
Ya expliqué un poco el proceso en un otro hilo () pero hoy daré más detalles y usaré un ejemplo real.
El ejemplo: un subdominio de la empresa Michelin, fabricante francés de neumáticos. Decidieron eliminar este subdominio hace un par de meses.

Vamos a suponer que queremos reactivar este dominio. Image
Read 16 tweets
16 Jun
🧩Nueva Extensión Chrome 🧩

Disponible la extensión para extraer los volúmenes de búsqueda directamente en Google Search Console: chrome.google.com/webstore/detai…

En este hilo, te explico cómo usarla.

⬇️⬇️
Primero, esta extensión no hubiera podido existir sin la gran ayuda de @jlhernando y el soporte de @_fede_gomez_. ¡Unos cracks que tienes que seguir ya!

Muchas gracias a @Salva_IP, @Errioxa, @gonzaripoll, @EvaOlivaresb, @TrabajoNomada y @lolo_phoenix por el feedback.
1. Instala la extensión

Si usas Chrome, sabes cómo va. Aquí: chrome.google.com/webstore/detai…
Read 6 tweets
6 May
🐸 ¿Cómo extraer contenido? 🐸

En el 🧵de hoy, te voy a dar todas las opciones que existen (y que conozco) para poder extraer contenido de una web.

Como SEO, parte de nuestra trabajo es extraer información de sitios (nuestros o ajenos).
Si quieres obtener información de una página, lo más simple es que uses esta extensión: chrome.google.com/webstore/detai…

Te permite extraer elementos similares en muy poco tiempo. Image
Si no dominas Xpath, te aconsejo echar un vistazo a:

* builtvisible.com/seo-guide-to-x…
* mjcachon.com/blog/expresion… de @mjcachon
Read 16 tweets
28 Apr
👊 SEO in-house vs agencia 👊

En el 🧵 de hoy, te voy a explicar cuáles son las diferencias principales entre los dos. El puesto es el mismo, pero realmente son trabajos bastante diferentes.

Y es importante saber lo que te corresponde más.
1. Diversidad

Lo que más extraño de mis años en @seocom_agency es la diversidad de los clientes. Problemáticas & objetivos diferentes, que te permiten aprender muy rápido.

De hecho, siempre recomiendo empezar en agencia por el mismo motivo: se aprende más (en mi opinión).
2. Datos

Si trabajas en agencia y por mucho que firmes un acuerdo de confidencialidad, tener acceso a los datos de tus clientes siempre es un problema. Puedes esperar semanas antes de tener acceso hasta al Search Console. Y hay datos que no te van a querer compartir.
Read 11 tweets
8 Apr
🐍 Python y SEO 🐍

Python es el lenguaje a la moda en nuestro sector. Yo mismo lo uso bastante.

¿Es útil? ¿Realmente vale la pena que inviertas tiempo para aprenderlo?

Si te interesa y tienes estas preguntas, este 🧵es para ti.
Empezaré con una cosa: saber Python NO ES y no será NUNCA un requisito para vivir del SEO.

Si alguien te lo dice, no entiende el SEO o quiere crear una barrera a la entrada que no existe.
Ahora, ¿por qué lo aprendí? Porque es una herramienta práctica para:

* manipular datos
* usar APIs
* hacer srapeo avanzado (que no permite Screaming Frog)

Me encanta Excel / Sheets, pero no cubren todos mis usos.
Read 9 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(