💥Redirecciones entre archive.org y tu sitemap💥

He creado un Google Colab para que puedas acelerar la definición de redirecciones entre urls en archive.org y tu sitemap.

Es GRATIS y lo único que necesitas es una cuenta de Google.
Esta tarea suele ser necesaria en caso de una migración mal hecha. En este caso, tienes que implementar redirecciones entre el histórico (archive.org) y el actual (tu sitemap).

Otras fuentes pueden existir (GA, GSC, …) y las podría agregar si te pueden servir.
Ahora, esta tarea es un coñazo y muchas veces hay una similitud entre la estructura de las URLs del histórico y actuales.

Por lo tanto, podemos intentar acelerar esta tarea con una simple automatización.
Etapa 1: Accede a colab.research.google.com/drive/1LvUbdff… y haz un copia del documento
Etapa 2: rellena las variables

1. Tu dominio
2. La URL de tu sitemap (o sitemap index)
3. La similitud mínima que deseas para que dos URLs se consideren equivalentes

He puesto valores de ejemplo con un proyecto que conozco un poco para que puedas ver resultados.
La similitud (entre 0 y 100) usa el algoritmo TF-IDF. Suelo usar un valor entre 40 y 60 para tener resultados decentes, pero realmente depende del proyecto.

Si te interesa tener más detalles sobre el algoritmo, puedes mirar maartengr.github.io/PolyFuzz/tutor….
Etapa 3: Ejecuta el código usando el menú: Runtime > Run all

Como siempre, he agregado comentarios (en inglés) para que se entienda el código y la lógica.
Etapa 4: Analiza los resultados

Ten en cuenta que:

* Muchas URLs no aparecerán. Es normal porque hay mucha basura en archive.org y no siempre hay un equivalente decente en tu sitemap
* No se comprueban los códigos de estado actuales en ningún momento
Si lo deseas, puedes descargar la tabla completa.

Te aconsejo que hagas una revisión manual: la idea es ahorrar tiempo, no que el sistema te haga todo solo y que no tengas que comprobar nada 😅

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Antoine Eripret

Antoine Eripret Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @antoineripret

16 Sep
🚍 Keyword research para tu web de viaje 🚍

En el hilo de hoy, te voy a explicar cómo hacer un keyword research para una hipotética web de viaje.

El proceso es bastante diferente de un keyword research clásico, ya verás.
En este hilo, me enfocaré en las páginas comerciales.

Para temáticas informacionales, puedes evidentemente seguir guías como miposicionamientoweb.es/keyword-resear… de @rubenalonsoes.
Para un viaje en bus, un usuario suele buscar "bus barcelona valencia" por ejemplo.

Problemas:

1. Tenemos que identificar las estructuras más comunes
2. Tenemos que identificar las rutas más populares

¿Cómo hacerlo sin perder días?
Read 11 tweets
9 Sep
🪦 Resucitar un dominio en menos de una hora 🪦

En el hilo de hoy, te voy a explicar cómo puedes resucitar un dominio con miles de contenidos en poco tiempo.

Te puede ser útil para migraciones catastróficas pero también para dominios expirados.
Ya expliqué un poco el proceso en un otro hilo () pero hoy daré más detalles y usaré un ejemplo real.
El ejemplo: un subdominio de la empresa Michelin, fabricante francés de neumáticos. Decidieron eliminar este subdominio hace un par de meses.

Vamos a suponer que queremos reactivar este dominio. Image
Read 16 tweets
28 Jun
⏰¿Cómo reactivar un dominio expirado rápido? ⏰

Acabas de capturar un dominio expirado y quieres recuperar y subir los contenidos que están en archive.org.

Cómo hacerlo si tienes muchas páginas sin perder demasiado tiempo?

En este hilo, te explico todo.
Voy a suponer en este hilo que quiero reactivar mi propio blog.

Un caso bastante improbable pero así tenemos un ejemplo simple con el cuál puedes jugar también. Image
Etapa 1: Consultar la API de archive.org

Usando la API de https://t.co/ORlt4dS4F8, podemos obtener una lista única de URL para un dominio.

En mi ejemplo, sería web.archive.org/cdx/search/cdx… Image
Read 15 tweets
16 Jun
🧩Nueva Extensión Chrome 🧩

Disponible la extensión para extraer los volúmenes de búsqueda directamente en Google Search Console: chrome.google.com/webstore/detai…

En este hilo, te explico cómo usarla.

⬇️⬇️
Primero, esta extensión no hubiera podido existir sin la gran ayuda de @jlhernando y el soporte de @_fede_gomez_. ¡Unos cracks que tienes que seguir ya!

Muchas gracias a @Salva_IP, @Errioxa, @gonzaripoll, @EvaOlivaresb, @TrabajoNomada y @lolo_phoenix por el feedback.
1. Instala la extensión

Si usas Chrome, sabes cómo va. Aquí: chrome.google.com/webstore/detai…
Read 6 tweets
1 Jun
¿⏳Cómo subir contenidos a WordPress a escala? ⏳

Subir contenidos (artículos por ejemplo) puede llevar tiempo. ¿Cómo organizar todo para ahorrar mucho tiempo?

En este 🧵, te lo explico.
Etapa 1: Organiza tus documentos

Para que el proceso funcione, tienes que trabajar con archivos .docx.

¿Es un problema si trabajas con Google Docs? No, todas las funcionalidades (comentarios, edición...) soportan los archivos .docx. Image
Además, tienes que usar una estructura coherente para tus contenidos, usando los encabezados.

Parece una tontería, pero la cantidad de documentos que no los usan me sigue sorprendiendo. Image
Read 9 tweets
6 May
🐸 ¿Cómo extraer contenido? 🐸

En el 🧵de hoy, te voy a dar todas las opciones que existen (y que conozco) para poder extraer contenido de una web.

Como SEO, parte de nuestra trabajo es extraer información de sitios (nuestros o ajenos).
Si quieres obtener información de una página, lo más simple es que uses esta extensión: chrome.google.com/webstore/detai…

Te permite extraer elementos similares en muy poco tiempo. Image
Si no dominas Xpath, te aconsejo echar un vistazo a:

* builtvisible.com/seo-guide-to-x…
* mjcachon.com/blog/expresion… de @mjcachon
Read 16 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(