He creado un Google Colab para que puedas acelerar la definición de redirecciones entre urls en archive.org y tu sitemap.
Es GRATIS y lo único que necesitas es una cuenta de Google.
Esta tarea suele ser necesaria en caso de una migración mal hecha. En este caso, tienes que implementar redirecciones entre el histórico (archive.org) y el actual (tu sitemap).
Otras fuentes pueden existir (GA, GSC, …) y las podría agregar si te pueden servir.
Ahora, esta tarea es un coñazo y muchas veces hay una similitud entre la estructura de las URLs del histórico y actuales.
Por lo tanto, podemos intentar acelerar esta tarea con una simple automatización.
1. Tu dominio 2. La URL de tu sitemap (o sitemap index) 3. La similitud mínima que deseas para que dos URLs se consideren equivalentes
He puesto valores de ejemplo con un proyecto que conozco un poco para que puedas ver resultados.
La similitud (entre 0 y 100) usa el algoritmo TF-IDF. Suelo usar un valor entre 40 y 60 para tener resultados decentes, pero realmente depende del proyecto.
Etapa 3: Ejecuta el código usando el menú: Runtime > Run all
Como siempre, he agregado comentarios (en inglés) para que se entienda el código y la lógica.
Etapa 4: Analiza los resultados
Ten en cuenta que:
* Muchas URLs no aparecerán. Es normal porque hay mucha basura en archive.org y no siempre hay un equivalente decente en tu sitemap
* No se comprueban los códigos de estado actuales en ningún momento
Si lo deseas, puedes descargar la tabla completa.
Te aconsejo que hagas una revisión manual: la idea es ahorrar tiempo, no que el sistema te haga todo solo y que no tengas que comprobar nada 😅
• • •
Missing some Tweet in this thread? You can try to
force a refresh
Let's go through the most common formulas you need to master to work quicker.
Most of them can also be used in Excel, but not all of them.
1. VLOOKUP
THE formula you have to master because it allows you to merge data from different tables. Very useful to combine Search Console and Analytics data, for instance.
You have to master it.
2. FILTER
I've explained everything about this formula in a separate thread:
🕵️ How can you spy on a competitor's content strategy? 🕵️
Your strategy must never be a simple pale copy of what others are doing, but it's always a good idea to know what they are up to.
Let me show you, with a real example, how you can generate insights quickly.
Let's assume we're working in the travel industry and one of our competitors is Skyscanner.
We want to understand what they are doing on their blog and generate some insights based on the data we have at our disposal.
First step: get an exhaustive list of their URLs
This could be done through a crawl, but I'd rather get the list from a sitemap. Not always doable, but in this case, it was easy to find what I was looking for.
Content rehydration is a process that occurs when a website, built with a JavaScript framework, such as Angular or React, dynamically updates the content on a page without requiring a full-page refresh.
Why using rehydration instead of relying only on SSR? It is faster!
What is the issue with content rehydration?
It will add a script to the raw response sent by your server with all the required code to make the application dynamic. Out-of-the-box, this script can easily represent more than 90% of the total HTML size.