Thread by @antoineripret on Thread Reader App

⏰¿Cómo reactivar un dominio expirado rápido? ⏰

Acabas de capturar un dominio expirado y quieres recuperar y subir los contenidos que están en archive.org.

Cómo hacerlo si tienes muchas páginas sin perder demasiado tiempo?

En este hilo, te explico todo.

Voy a suponer en este hilo que quiero reactivar mi propio blog.

Un caso bastante improbable pero así tenemos un ejemplo simple con el cuál puedes jugar también.

Etapa 1: Consultar la API de archive.org

Usando la API de https://t.co/ORlt4dS4F8, podemos obtener una lista única de URL para un dominio.

En mi ejemplo, sería web.archive.org/cdx/search/cdx…

Si te fijas, incluye por defecto contenido HTML pero también CSS, JS etc...

Aquí, queremos únicamente las páginas HTML, así que toca filtrar un poco.

Esta lista incluye la URL para las cuáles archive.org tiene contenido.

Usando otra API, podemos obtener el enlace directa del snapshot de https://t.co/ORlt4dS4F8.

Por ejemplo: archive.org/wayback/availa…

Al final de esta etapa, debes tener una tabla con las URLs originales y la URL del snapshot de archive.org

Yo lo hago con Python y requests (pypi.org/project/reques…), pero lo puedes hacer como quieras, lo que importa es el resultado.

Etapa 2: Identificar el contenido por extraer

Usando unos contenidos de ejemplo, debes identificar el contenido que quieres extraer.

En este ejemplo, quiero extraer todo el contenido HTML dentro de la etiqueta <article> cuya clase contiene "post".

Etapa 3: Extraer el contenido

Usando las URLs de los snapshots de archive.org, puedes extraer el contenido que te interesa.

Lo puedes hacer con Screaming Frog o lo que quieras, pero es importante que te extraiga el contenido HTML y no únicamente el texto.

Etapa 4: Convertir el contenido en HTML limpio

No quieres conservar la estructura HTML original. Quieres un código HTML limpio, sin las clases etc... que usaba el contenido original.

Uso pypi.org/project/markdo… y pypi.org/project/Markdo… para hacerlo a escala.

Etapa 5: Descargar las imágenes

El código HTML descargado incluirá referencias a imágenes (etiquetas <img> o <figure>).

Debemos:

1. Identificarlas
2. Descargarlas si podemos
3. Eliminarlas del código HTML si no podemos descargarlas

Si usas Python, esta lógica es muy fácil de implementar con docs.python-requests.org/en/master/ y crummy.com/software/Beaut….

El ahorro de tiempo que supone hacerlo de manera automática es una barbaridad.

Etapa 6: Subir tus imágenes

Todavía tendrás que subir estas imágenes en tu servidor y actualizar el código HTML con la URL correcta. Si no lo haces, harás peticiones a archive.org.

Puede funcionar, pero impactará tu WPO.

Etapa 7: Actualizar el enlazado

Por defecto, todos el enlazado incluye enlaces hacia snapshots de archive.org

Tienes que manipular tu código HTML para:
1. Usar la URL correcta
2. Eliminar los enlaces internos hacía contenidos que no has podido extraer

Etapa 8: Subir los contenidos

Una vez hayas hecho todo este trabajo, puedes seguir lo que explicaba en otro hilo ().

El proceso puede parece largo, pero piensa que ahorrarás muchas horas de trabajo manual (y aburrido).

Y lo podrás usar para hacer algo más interesante que copiar pegar texto.

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Share this page!

Enter URL or ID to Unroll