Experimento :: Cómo desindexar url antiguas en Google


Experimento :: Cómo desindexar url antiguas en Google

Tal como os comentaba en el post anterior Cambio de web, la importancia del CMS y el servidor en SEO, quería aprovechar el rediseño del blog para borrar todo el contenido que tenía Google indexado y crawleado.

El problema: contenido basura indexado y rastreado por Google

Contenido indexado

Con el comando site:ainalluna.com en google podemos ver que se está indexando

Contenido rastreado e indexado

Bajo el dominio hay mucha porquería que Google tiene crawleada de experimentos WordPress, cambios de plantillas etc.
Si miramos en Google Search Console (GSC), veremos las urls basura que tiene Google, 101 url de un urls de un blog personal son 3 post, una barbaridad.

Requisitos que debe cumplir un url para ser eliminada de Google.

Para desindexar el contenido tenemos a nuestra disposición la herramienta de eliminación temporal de urls de googles: Herramienta de eliminación de Google

La Herramienta para eliminar URLs solo sirve para eliminar temporalmente. Si quieres que desaparezca contenido o URLs de forma permanente de la Búsqueda de Google, debes seguir al menos uno de estos pasos:

  • Quita o actualiza el contenido en sí de tu sitio web (imágenes, páginas y directorios) y comprueba que el servidor web devuelve un código de estado HTTP 404 (página no encontrada) o 410 (no disponible). Los archivos que no sean HTML (como los PDF) se deben eliminar por completo de tu servidor. Más información sobre los códigos de estado HTTP
  • Bloquea el acceso al contenido, por ejemplo, solicitando una contraseña.
  • Indica que la página no se debe indexar con una metaetiqueta noindex. Este método es menos seguro que los otros.

Cómo desindexar urls antiguas de Google paso a paso

De los 3 requisitos que pide Google para desindexar el contenido me he decantado por el error 404. Es el método más eficaz y las url ya no existen en mi nuevo CMS, así que por defecto ya devuelven un 404.

1. Crear un sitemap de desindexación:

Lo primero que vamos a hacer es crear una sitemap con todas las urls que no queremos y las listamos en un archivo.txt

2. Paso 2: Crear una sitemap.xml de las nuevas urls a indexar

Creamos el sitemap.xml de las nuevas url's que queremos indexar.

3. Paso 3: Subimos los dos sitemaps a Google search console

La finalidad de subir los sitemaps a Google es para que Google vuelva a pasar por el sitio se encuentre con las url nuevas que no dan 404 y forzar que vuelva a pasar por las url que dan 404 y que las elimine de una vez.

4. Paso 4: Esperar, google se lo toma con calma.

El día 27 de agosto subí mis sitemaps y hoy día 1 de septiembre podemos empezar a ver movimientos en GSC.

Como podéis comprobar tenemos un baile de urls, de excluidas han ido pasando a error, que es lo que nos interesa para ir desindexando. Ahora toca esperar unos días más hasta que Google vaya procesado los cambios.

UPDATE 19 de Agosto

Las url excluidas han ido bajando y van pasando hacia los errores, pero aun y así quedan aún muchas urls con 404 que siguen indexadas si hacemos un site:

UPDATE 16 de septiembre

He visto que las urls indexadas que dan las tengo como validadas en GSC:

Como podeis ver, la fecha del ultimo rastreo es bastante antigua, por mucho que las haya subido a un sitemap.xml y forzado el rastreo no me las rastreado todas. ô_O tengo una web de poca autoridad.

Aprovechando que tengo el control del proyecto, que la web es muy pequeña y me resulta muy fácil hacer estos test, voy a provechar para volver a crear el sitemap de desindexación solo con estas url's y en lugar de devolver un 404 , voy a forzar a devolver un 410.

En pocos días deberían desaparecer, vamos a ver ....

UPDATE 24 de septiembre

Las urls no se van, es decir no consigo que vuelva a pasar por ellas, ni resubiendo el sitemap ni con el inspector solicitando la indexación. Voy a eliminar las urls que quedan por GSC.

UPDATE 1 de octubre

Con el comando site: vemos que ya se ha eliminado todas las urls.

En Google Search console, sigue el caos.

UPDATE 8 de octubre

Solo quedan 3 url's como válidadas en GSC, por contra en el "GSC en eliminar url" me dice que 2 de ellas estan eliminadas desde el 29 de septiembre!

Voy a volver a forzar el 410 que despues de actuallizar el server se me reescribio el archivo y las perdi.

  Aina-Lluna Taylor Barceló
Aina-Lluna Taylor Barceló
Publicado el:

También te puede interesar