No volveré a explicar lo que ya está en el otro hilo. Puedes también leer aeripret.com/es/extraer-url… dónde explico todo.
Acabarás con una tabla con la URL original y la URL des último snapshot en https://t.co/ORlt4dS4F8.
Etapa 2: Extraer los contenidos
En este caso, dos partes nos interesan:
1. (rojo) la introducción del contenido 2. (naranja) el contenido
Ambos se puede identificar fácilmente con una clase:
Este parte se hará en Python, para guardar los contenidos en Markdown.
Se puede hacer de otra manera pero:
1. Es más complejo / lento (en mi opinión) 2. No es reproducible
Te dejo el código comentado para que se entienda la lógica.
No se pueden extraer todos los contenidos porque en algunos casos, el único snapshot de archive.org es una página que indica que el dominio ya no existe.
Obviamente, no me interesan estos casos y por eso mi lógica toma en cuenta este "problema".
Puedes abrir algunos archivos para comprobar que el contenido se haya guardado correctamente.
En mi caso, vemos que tanto el contenido como las imágenes aparecen bien.
Etapa 3: Convertir el markdown en HTML simple
Convertir nuestro Markdown en HTML simple. ¿Por qué hemos usado este formato antes entonces? Ya teníamos html 🤷♂️
Así nos aseguramos de tener HTML limpio, es decir sin clase, <div> etc...
A eso me refería por ejemplo cuando te decía que es más fácil hacerlo así que todo a mano.
Etapa 4: descargar todas las imágenes
Por defecto, las imágenes de nuestros contenidos están ahora en archive.org. Podemos descargarlas para subirlas a nuestro servidor.
Primero tenemos que obtener todas las URLs de todas las imágenes de nuestros contenidos
Y después intentamos descargarlas (tendremos que subirlas después a nuestro servidor por FTP de forma manual, pero son 5mn con FileZilla).
Etapa 5: modificación del HTML
Con las imágenes descargadas:
1. Actualizar los atributos src en el código descargado anteriormente para usar la nueva URL 2. Eliminar las imágenes que no se han podido descargar.
Entre no tener una imagen o que no cargue, ¿qué prefieres?
Aplicaremos un cambio muy similar al enlazado interno:
1. Si un contenido no se ha podido recuperar de archive.org, eliminamos los enlaces internos hacia este contenido
2. Reemplazamos los enlaces internos https://t.co/ORlt4dS4F8 por la URL real que usaremos
Siguiendo esta lógica y en poco tiempo tienes:
1. Todos los contenidos disponibles descargados (en HTML limpio) 2. Las imágenes disponibles en tu FTP o quitadas de los contenidos 3. El enlazado interno sin 404
Disponible la extensión para extraer los volúmenes de búsqueda directamente en Google Search Console: chrome.google.com/webstore/detai…
En este hilo, te explico cómo usarla.
⬇️⬇️
Primero, esta extensión no hubiera podido existir sin la gran ayuda de @jlhernando y el soporte de @_fede_gomez_. ¡Unos cracks que tienes que seguir ya!
En el 🧵 de hoy, te voy a explicar cuáles son las diferencias principales entre los dos. El puesto es el mismo, pero realmente son trabajos bastante diferentes.
Y es importante saber lo que te corresponde más.
1. Diversidad
Lo que más extraño de mis años en @seocom_agency es la diversidad de los clientes. Problemáticas & objetivos diferentes, que te permiten aprender muy rápido.
De hecho, siempre recomiendo empezar en agencia por el mismo motivo: se aprende más (en mi opinión).
2. Datos
Si trabajas en agencia y por mucho que firmes un acuerdo de confidencialidad, tener acceso a los datos de tus clientes siempre es un problema. Puedes esperar semanas antes de tener acceso hasta al Search Console. Y hay datos que no te van a querer compartir.
En el🧵de hoy, te voy a enseñar algunas expresiones regulares simples para que puedas empezar a usarlas ya. Ahorrán mucho tiempo, y dominar algunas te ayudará.
No para posicionar, pero para trabajar de manera más eficiente.
🤷♂️¿Que son las expresiones regulares (REGEX)? 🤷♂️
Sirven para describir cadenas de texto, números y caracteres especiales con el fin de buscarlas o manipularlas.
Se pueden usar en la gran mayoría de las herramientas, como por ejemplo Sheets: