🪦 Resucitar un dominio en menos de una hora 🪦

En el hilo de hoy, te voy a explicar cómo puedes resucitar un dominio con miles de contenidos en poco tiempo.

Te puede ser útil para migraciones catastróficas pero también para dominios expirados.
Ya expliqué un poco el proceso en un otro hilo () pero hoy daré más detalles y usaré un ejemplo real.
El ejemplo: un subdominio de la empresa Michelin, fabricante francés de neumáticos. Decidieron eliminar este subdominio hace un par de meses.

Vamos a suponer que queremos reactivar este dominio. Image
Etapa 1: Consultar la API de archive.org

No volveré a explicar lo que ya está en el otro hilo. Puedes también leer aeripret.com/es/extraer-url… dónde explico todo.

Acabarás con una tabla con la URL original y la URL des último snapshot en https://t.co/ORlt4dS4F8. Image
Etapa 2: Extraer los contenidos

En este caso, dos partes nos interesan:

1. (rojo) la introducción del contenido
2. (naranja) el contenido

Ambos se puede identificar fácilmente con una clase: Image
Este parte se hará en Python, para guardar los contenidos en Markdown.

Se puede hacer de otra manera pero:

1. Es más complejo / lento (en mi opinión)
2. No es reproducible

Te dejo el código comentado para que se entienda la lógica. Image
No se pueden extraer todos los contenidos porque en algunos casos, el único snapshot de archive.org es una página que indica que el dominio ya no existe.

Obviamente, no me interesan estos casos y por eso mi lógica toma en cuenta este "problema". Image
Puedes abrir algunos archivos para comprobar que el contenido se haya guardado correctamente.

En mi caso, vemos que tanto el contenido como las imágenes aparecen bien. Image
Etapa 3: Convertir el markdown en HTML simple

Convertir nuestro Markdown en HTML simple. ¿Por qué hemos usado este formato antes entonces? Ya teníamos html 🤷‍♂️

Así nos aseguramos de tener HTML limpio, es decir sin clase, <div> etc... Image
En Python, realizar esta operación es bastante fácil (ver devdungeon.com/content/conver…).

A eso me refería por ejemplo cuando te decía que es más fácil hacerlo así que todo a mano. Image
Etapa 4: descargar todas las imágenes

Por defecto, las imágenes de nuestros contenidos están ahora en archive.org. Podemos descargarlas para subirlas a nuestro servidor.

Primero tenemos que obtener todas las URLs de todas las imágenes de nuestros contenidos Image
Y después intentamos descargarlas (tendremos que subirlas después a nuestro servidor por FTP de forma manual, pero son 5mn con FileZilla). Image
Etapa 5: modificación del HTML

Con las imágenes descargadas:

1. Actualizar los atributos src en el código descargado anteriormente para usar la nueva URL
2. Eliminar las imágenes que no se han podido descargar.

Entre no tener una imagen o que no cargue, ¿qué prefieres? Image
Aplicaremos un cambio muy similar al enlazado interno:

1. Si un contenido no se ha podido recuperar de archive.org, eliminamos los enlaces internos hacia este contenido

2. Reemplazamos los enlaces internos https://t.co/ORlt4dS4F8 por la URL real que usaremos
Siguiendo esta lógica y en poco tiempo tienes:

1. Todos los contenidos disponibles descargados (en HTML limpio)
2. Las imágenes disponibles en tu FTP o quitadas de los contenidos
3. El enlazado interno sin 404

Usando wpallimport.com, podrás importar todo en 2mn.
Este proceso puede parecer complejo y asustar (especialmente si no dominas Python) pero:

1. Funciona perfectamente, lo he usado ya varias veces sin ningún tipo de problema

2. Ahorra mucho tiempo porque es repetible y escalable.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Antoine Eripret

Antoine Eripret Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @antoineripret

16 Jun
🧩Nueva Extensión Chrome 🧩

Disponible la extensión para extraer los volúmenes de búsqueda directamente en Google Search Console: chrome.google.com/webstore/detai…

En este hilo, te explico cómo usarla.

⬇️⬇️
Primero, esta extensión no hubiera podido existir sin la gran ayuda de @jlhernando y el soporte de @_fede_gomez_. ¡Unos cracks que tienes que seguir ya!

Muchas gracias a @Salva_IP, @Errioxa, @gonzaripoll, @EvaOlivaresb, @TrabajoNomada y @lolo_phoenix por el feedback.
1. Instala la extensión

Si usas Chrome, sabes cómo va. Aquí: chrome.google.com/webstore/detai…
Read 6 tweets
6 May
🐸 ¿Cómo extraer contenido? 🐸

En el 🧵de hoy, te voy a dar todas las opciones que existen (y que conozco) para poder extraer contenido de una web.

Como SEO, parte de nuestra trabajo es extraer información de sitios (nuestros o ajenos).
Si quieres obtener información de una página, lo más simple es que uses esta extensión: chrome.google.com/webstore/detai…

Te permite extraer elementos similares en muy poco tiempo. Image
Si no dominas Xpath, te aconsejo echar un vistazo a:

* builtvisible.com/seo-guide-to-x…
* mjcachon.com/blog/expresion… de @mjcachon
Read 16 tweets
28 Apr
👊 SEO in-house vs agencia 👊

En el 🧵 de hoy, te voy a explicar cuáles son las diferencias principales entre los dos. El puesto es el mismo, pero realmente son trabajos bastante diferentes.

Y es importante saber lo que te corresponde más.
1. Diversidad

Lo que más extraño de mis años en @seocom_agency es la diversidad de los clientes. Problemáticas & objetivos diferentes, que te permiten aprender muy rápido.

De hecho, siempre recomiendo empezar en agencia por el mismo motivo: se aprende más (en mi opinión).
2. Datos

Si trabajas en agencia y por mucho que firmes un acuerdo de confidencialidad, tener acceso a los datos de tus clientes siempre es un problema. Puedes esperar semanas antes de tener acceso hasta al Search Console. Y hay datos que no te van a querer compartir.
Read 11 tweets
8 Apr
🐍 Python y SEO 🐍

Python es el lenguaje a la moda en nuestro sector. Yo mismo lo uso bastante.

¿Es útil? ¿Realmente vale la pena que inviertas tiempo para aprenderlo?

Si te interesa y tienes estas preguntas, este 🧵es para ti.
Empezaré con una cosa: saber Python NO ES y no será NUNCA un requisito para vivir del SEO.

Si alguien te lo dice, no entiende el SEO o quiere crear una barrera a la entrada que no existe.
Ahora, ¿por qué lo aprendí? Porque es una herramienta práctica para:

* manipular datos
* usar APIs
* hacer srapeo avanzado (que no permite Screaming Frog)

Me encanta Excel / Sheets, pero no cubren todos mis usos.
Read 9 tweets
6 Apr
⚡️ Expresiones regulares (REGEX) ⚡️

En el🧵de hoy, te voy a enseñar algunas expresiones regulares simples para que puedas empezar a usarlas ya. Ahorrán mucho tiempo, y dominar algunas te ayudará.

No para posicionar, pero para trabajar de manera más eficiente.
🤷‍♂️¿Que son las expresiones regulares (REGEX)? 🤷‍♂️

Sirven para describir cadenas de texto, números y caracteres especiales con el fin de buscarlas o manipularlas.

Se pueden usar en la gran mayoría de las herramientas, como por ejemplo Sheets:

Las REGEX pueden asustar, pero te voy a detallar cuáles son las más comunes y qué hacen.

Usaré regex101.com en mi pantallazos, que te permite validar tus REGEX de manera sencilla.
Read 14 tweets
30 Mar
🌐¿Cuáles son las mejores extensiones de Chrome? 🌐

En el 🧵de hoy, te voy a listar las extensiones principales que uso para trabajar de manera eficiente con Google Chrome.

Las extensiones son indispensables y no podría trabajar sin ellas la verdad.
1. Extensity

Permite activar / desativar extensiones en un clic. Muy útil cuando tienes decenas de extensiones pero que no usas la mayoría a menudo.

chrome.google.com/webstore/detai…
2. Google Search Console Full Width

Su nombre lo dice todo: permite aprovechar de todo el espacio disponible en tu pantalla para aumentar el tamaño de la gráfica con la UI de GSC.

chrome.google.com/webstore/detai…
Read 19 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(