“Es imposible rastrear toda la Web”


En respuesta a una pregunta sobre por qué las herramientas de SEO no muestran todos los vínculos de retroceso, el defensor de búsqueda de Google, John Mueller, dice que es imposible rastrear toda la web.

Esto se afirma en un comentario en Reddit en un hilo iniciado por un profesional de SEO frustrado.

Preguntan por qué una herramienta de SEO que están utilizando no encuentra todos los enlaces que apuntan a un sitio.

Qué herramienta está usando la persona no es importante. Como aprendemos de Mueller, no es posible para ninguna herramienta para descifrar el 100% de los enlaces entrantes de un sitio web.

Este es el por qué.

No hay forma de rastrear la web «correctamente»

Mueller dice que no hay una forma objetivamente correcta de rastrear la web porque tiene una cantidad infinita de URL.

Nadie tiene los recursos para mantener una cantidad interminable de URL en una base de datos, por lo que los rastreadores web intentan determinar qué vale la pena rastrear.

Como explica Mueller, eso inevitablemente conduce a que las URL se rastreen con poca frecuencia o no se rastreen en completo.

“No hay una forma objetiva de rastrear la web correctamente.

En teoría, es imposible rastrearlo todo, ya que la cantidad de URL reales es infinita. Dado que nadie puede permitirse el lujo de mantener una cantidad infinita de URL en una base de datos, todos los rastreadores web hacen suposiciones, simplificaciones y conjeturas sobre lo que realmente vale la pena rastrear.

E incluso entonces, a efectos prácticos, no puede rastrear todo eso todo el tiempo, Internet no tiene suficiente conectividad y ancho de banda para eso, y cuesta mucho dinero si desea ceder a muchas páginas regularmente. (para el rastreador y para el propietario del sitio).

Más allá de eso, algunas páginas cambian rápidamente, otras no han cambiado durante 10 años, por lo que los rastreadores intentan ahorrar esfuerzo centrándose más en las páginas que esperan cambiar, en lugar de aquellas que esperan que no cambien».

Cómo determinan los rastreadores web lo que vale la pena rastrear

Mueller continúa explicando cómo los rastreadores web, incluidos los motores de búsqueda y las herramientas de SEO, descubren qué URL vale la pena rastrear.

“Y luego, tocamos la parte en la que los rastreadores intentan descifrar qué páginas son realmente útiles.

La web está llena de basura que a nadie le importa, páginas que han sido enviadas como spam hasta la inutilidad. Estas páginas aún pueden cambiar regularmente, pueden tener URL razonables, pero están destinadas al vertedero, y cualquier motor de búsqueda que se preocupe por sus usuarios las ignorará.

A veces no es solo basura obvia tampoco. Cada vez más, los sitios están técnicamente bien, pero simplemente no alcanzan «la barra» desde el punto de vista de la calidad para merecer más rastreo».

Los rastreadores web funcionan con un conjunto limitado de URL

Mueller concluye su respuesta diciendo que todos los rastreadores web funcionan en un conjunto de URL «simplificado».

Dado que no existe una forma correcta de rastrear la web, como se mencionó anteriormente, cada herramienta de SEO tiene su propia forma de decidir qué URL vale la pena rastrear.

Es por eso que una herramienta puede descifrar backlinks que otra herramienta no encontró.

“Por lo tanto, todos los rastreadores (incluidas las herramientas de SEO) trabajan en un conjunto muy simplificado de URL, tienen que determinar con qué frecuencia rastrear, qué URL rastrear con más frecuencia y qué partes de la web ignorar. No hay reglas fijas para nada de esto, por lo que cada herramienta tendrá que tomar sus propias decisiones en el camino. Es por eso que los motores de búsqueda tienen diferentes contenidos indexados, por qué las herramientas de SEO enumeran diferentes enlaces, por qué las métricas construidas sobre estos son tan diferentes”.


Fuente: Reddit

Imagen destacada: rangizzz/Shutterstock





Consultar el artículo en la publicación original

“Es imposible rastrear toda la Web”