Thread by @antoineripret on Thread Reader App

🪦 Resucitar un dominio en menos de una hora 🪦

En el hilo de hoy, te voy a explicar cómo puedes resucitar un dominio con miles de contenidos en poco tiempo.

Te puede ser útil para migraciones catastróficas pero también para dominios expirados.

Ya expliqué un poco el proceso en un otro hilo () pero hoy daré más detalles y usaré un ejemplo real.

El ejemplo: un subdominio de la empresa Michelin, fabricante francés de neumáticos. Decidieron eliminar este subdominio hace un par de meses.

Vamos a suponer que queremos reactivar este dominio.

Etapa 1: Consultar la API de archive.org

No volveré a explicar lo que ya está en el otro hilo. Puedes también leer aeripret.com/es/extraer-url… dónde explico todo.

Acabarás con una tabla con la URL original y la URL des último snapshot en https://t.co/ORlt4dS4F8.

Etapa 2: Extraer los contenidos

En este caso, dos partes nos interesan:

1. (rojo) la introducción del contenido
2. (naranja) el contenido

Ambos se puede identificar fácilmente con una clase:

Este parte se hará en Python, para guardar los contenidos en Markdown.

Se puede hacer de otra manera pero:

1. Es más complejo / lento (en mi opinión)
2. No es reproducible

Te dejo el código comentado para que se entienda la lógica.

No se pueden extraer todos los contenidos porque en algunos casos, el único snapshot de archive.org es una página que indica que el dominio ya no existe.

Obviamente, no me interesan estos casos y por eso mi lógica toma en cuenta este "problema".

Puedes abrir algunos archivos para comprobar que el contenido se haya guardado correctamente.

En mi caso, vemos que tanto el contenido como las imágenes aparecen bien.

Etapa 3: Convertir el markdown en HTML simple

Convertir nuestro Markdown en HTML simple. ¿Por qué hemos usado este formato antes entonces? Ya teníamos html 🤷‍♂️

Así nos aseguramos de tener HTML limpio, es decir sin clase, <div> etc...

En Python, realizar esta operación es bastante fácil (ver devdungeon.com/content/conver…).

A eso me refería por ejemplo cuando te decía que es más fácil hacerlo así que todo a mano.

Etapa 4: descargar todas las imágenes

Por defecto, las imágenes de nuestros contenidos están ahora en archive.org. Podemos descargarlas para subirlas a nuestro servidor.

Primero tenemos que obtener todas las URLs de todas las imágenes de nuestros contenidos

Y después intentamos descargarlas (tendremos que subirlas después a nuestro servidor por FTP de forma manual, pero son 5mn con FileZilla).

Etapa 5: modificación del HTML

Con las imágenes descargadas:

1. Actualizar los atributos src en el código descargado anteriormente para usar la nueva URL
2. Eliminar las imágenes que no se han podido descargar.

Entre no tener una imagen o que no cargue, ¿qué prefieres?

Aplicaremos un cambio muy similar al enlazado interno:

1. Si un contenido no se ha podido recuperar de archive.org, eliminamos los enlaces internos hacia este contenido

2. Reemplazamos los enlaces internos https://t.co/ORlt4dS4F8 por la URL real que usaremos

Siguiendo esta lógica y en poco tiempo tienes:

1. Todos los contenidos disponibles descargados (en HTML limpio)
2. Las imágenes disponibles en tu FTP o quitadas de los contenidos
3. El enlazado interno sin 404

Usando wpallimport.com, podrás importar todo en 2mn.

Este proceso puede parecer complejo y asustar (especialmente si no dominas Python) pero:

1. Funciona perfectamente, lo he usado ya varias veces sin ningún tipo de problema

2. Ahorra mucho tiempo porque es repetible y escalable.

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Share this page!

Enter URL or ID to Unroll