Google comparte información sobre la indexación y el presupuesto de rastreo


Google publicó recientemente un podcast sobre lo que se conoce como presupuesto de rastreo y qué influye en Google para indexar contenido.

Tanto Gary Illyes como Martin Splitt compartieron información sobre la indexación de la web, tal como se entiende desde la perspectiva de Google.

Origen del Concepto de Crawl Budget

Gary Illyes dijo que el concepto de un presupuesto de rastreo fue algo creado fuera de Google por la comunidad de búsqueda.

Explicó que no había nada interno dentro de Google que se correspondiera con la idea de un presupuesto de rastreo.

Cuando la gente hablaba de un presupuesto de rastreo, lo que estaba sucediendo dentro de Google involucraba múltiples métricas, no esta única cosa llamada presupuesto de rastreo.

Así que dentro de Google hablaron sobre lo que podría representar un presupuesto de rastreo y se les ocurrió una forma de hablar de ello.

Él dijo:

“…durante mucho tiempo estuvimos diciendo que no tenemos el concepto de presupuesto de rastreo. Y era cierto.

No teníamos algo que pudiera significar un presupuesto de rastreo por sí solo, de la misma manera que no tenemos un número para EAT, por ejemplo.

Y luego, debido a que la gente estaba hablando de eso, tratamos de pensar en algo… al menos, definido de alguna manera.

Y luego trabajamos con dos o tres o cuatro equipos, no recuerdo, donde tratamos de encontrar al menos algunas métricas internas que pudieran mapearse en algo que las personas definan externamente como presupuesto de rastreo”.

Qué significa el presupuesto de rastreo dentro de Google

Según Gary, parte del cálculo de un presupuesto de rastreo se basa en consideraciones prácticas, como cuántas URL permite el servidor que Googlebot rastree sin sobrecargar el servidor.

Gary Illyes y Martin Splitt:

«Gary Illyes: … lo definimos como la cantidad de URL que Googlebot puede y está dispuesto a rastrear».

Martin Splitt: Para un sitio determinado.

Gary Illyes: Para un sitio determinado, sí.

Y para nosotros, eso es más o menos lo que significa el presupuesto de rastreo porque, si lo piensas bien, no queremos dañar los sitios web porque Googlebot tiene suficiente capacidad de Chrome para derribar sitios…».

Equilibrar diferentes consideraciones

Otro punto interesante que se hizo fue cómo, en relación con el gateo, hay diferentes consideraciones involucradas. Hay límites a lo que se puede almacenar, por lo que, según Google, eso significa utilizar los recursos de Google «donde importa.

“Martin Splitt: Aparentemente, obviamente, todos quieren que todo se indexe lo más rápido posible, ya sea el nuevo sitio web que acaba de ingresar en línea o sitios web que tienen muchas páginas, y quieren cambiarlos con frecuencia, y están preocupado por las cosas que no se rastrean tan rápido.

Por lo general, lo describo como un desafío con el equilibrio entre no sobrecargar el sitio web y también gastar nuestros recursos donde importa”.

John Mueller tuiteó recientemente que Google no indexa todo y mencionó que no todo es útil.

Mueller Pío:

“…es importante tener en cuenta que Google simplemente no indexa todas las páginas de la web, incluso si se envían directamente. Si no hay ningún error, es posible que se seleccione para la indexación con el tiempo, o que Google simplemente se concentre en otras páginas de su sitio”.

Siguió con otro tuit:

“Bueno, muchos SEO y sitios (¡quizás no tú/los tuyos!) Producen contenido terrible que no vale la pena indexar. El hecho de que exista no significa que sea útil para los usuarios”.

  • Martin Splitt llama al proceso de rastreo un tema de “gastando nuestros recursos donde importa.”
  • John Mueller mencionó si el contenido es “útil para los usuarios.”

La utilidad es un ángulo interesante para juzgar el contenido y, en mi opinión, puede ser más útil para diagnosticar el contenido que los consejos estériles para asegurarse de que el contenido «se dirija a la intención del usuario» y que esté «optimizado para palabras clave».

Por ejemplo, recientemente revisé un sitio de YMYL en el que todo el sitio parecía haber sido creado a partir de una lista de verificación de tareas pendientes de SEO.

  • Crear un perfil de autor
  • El perfil del autor debe tener una página de LinkedIn
  • Palabra clave optimizar el tráfico
  • Enlace a sitios de «autoridad»

El editor estaba usando imágenes generadas por IA para la biografía del autor, que también se usó en un perfil falso de LinkedIn.

Muchas de las páginas web del sitio enlazan con páginas delgadas .gov que tienen las palabras clave en el título pero que no son útiles en completo. Era como si ni siquiera miraran la página del gobierno para juzgar si valía la pena vincularla.

Aparentemente, estaban marcando las casillas de una lista de verificación de tareas de SEO, completando actividades de SEO de memoria, como vincular a un sitio .gov, crear un perfil de autor, etc.

Crearon la apariencia externa de calidad pero no la lograron realmente porque en cada camino no consideraron si lo que estaban haciendo era útil.

El presupuesto de rastreo no es algo de qué preocuparse

Gary y Martin comenzaron a hablar sobre cómo la mayoría de los sitios no necesitan preocuparse por el presupuesto de rastreo.

Gary señaló con el dedo a los blogs de la industria de las búsquedas que en el pasado promovieron la idea de que el presupuesto de rastreo es algo de lo que preocuparse cuando, según él, no es algo de lo que preocuparse.

Él dijo:

“Creo que en parte es miedo a que suceda algo que no pueden controlar, que la gente no puede controlar, y la otra cosa es solo información errónea.

… Y había algunos blogs en los días en los que la gente hablaba sobre el presupuesto de rastreo, y es muy importante, y luego la gente lo estaba descubriendo y se confundía sobre «¿Tengo que preocuparme por el presupuesto de rastreo o no?»

Martín Splitt preguntó:

“Pero digamos que tienes un blog interesante… ¿Necesitas preocuparte por el presupuesto de rastreo?”

Y Gary respondió:

«Creo que la mayoría de la gente no tiene que preocuparse por eso, y cuando digo la mayoría, es probable que más del 90 % de los sitios en Internet no tengan que preocuparse por eso».

Unos minutos más tarde en el podcast, Martin observó:

“Pero la gente está preocupada por eso, y no estoy exactamente seguro de dónde viene.

Creo que se debe al hecho de que algunos sitios web a gran escala tienen artículos y publicaciones de blog en los que hablan de que el presupuesto de rastreo es una cosa.

Se está discutiendo en los cursos de formación de SEO. Por lo que he visto, se está discutiendo en conferencias.

Pero es un problema que es raro que se tenga. Como si no fuera algo que todos los sitios web sufran y, sin embargo, la gente está muy nerviosa al respecto”.

Cómo determina Google qué indexar

Lo que siguió a continuación fue una discusión sobre los factores que hacen que Google indexe contenido.

Es interesante cuando Gary habla de querer indexar contenido que podría buscarse.

Gary Illyes:

“…Porque como dijimos, no tenemos espacio infinito, así que queremos indexar cosas que pensamos, bueno, nosotros no, pero nuestros algoritmos determinan que podrían buscarse en algún momento, y si no lo hacemos tenemos señales, por ejemplo, sobre un determinado sitio o una determinada URL o lo que sea, entonces, ¿cómo sabríamos que necesitamos rastrear eso para indexarlo?

Gary Redactora de tecnología de Google Search Central, Lizzi Sassman (@oklizzi), luego habló sobre inferir del resto del sitio si vale la pena indexar contenido nuevo o no.

“Y algunas cosas de las que puede inferir, por ejemplo, si lanza un nuevo blog en su sitio principal, por ejemplo, y tiene un nuevo subdirectorio de blog, por ejemplo, entonces podemos inferir, basándonos en todo el sitio, si queremos rastrear mucho de ese blog o no.

Lizzi Sassman: Pero el blog es un nuevo tipo de contenido que puede actualizarse con más frecuencia, entonces, ¿cómo podemos saber si eso es…? Es nuevo. No estamos seguros de si va a ser noticia, como cómo
frecuente aún está por determinarse.

Gary Illyes: Pero necesitamos una señal de arranque.

Lizzi Sassman: Y la señal de arranque es…

Gary Illyes: Infiere del sitio principal”.

Gary luego pasó a hablar sobre señales de calidad. Sin embargo, las señales de calidad de las que hablaron fueron si las señales estaban relacionadas con el interés del usuario, como si la gente estuviera interesada en este producto. ¿La gente está interesada en este sitio?

Él explicó:

“Pero no se trata solo de la frecuencia de actualización. También son las señales de calidad que tiene el sitio principal.

Entonces, por ejemplo, si vemos que un cierto patrón es muy popular en Internet, como un producto de barra oblicua es muy popular en Internet, y la gente en Reddit está hablando de eso, otros sitios están vinculados a URL en ese patrón, entonces es una señal para nosotros de que a la gente le gusta el sitio en general”.

Gary continúa hablando sobre la popularidad y las señales de interés, pero en el contexto de la conversación, que es una nueva sección de un sitio que se ha lanzado.

En la discusión él llama a la nueva sección Directorio.

Illyes:

“Mientras que si tienes algo a lo que la gente no se vincula, y luego intentas lanzar un nuevo directorio, es como, bueno, a la gente no le gusta el sitio, entonces ¿por qué rastrearíamos este nuevo directorio que acabas de lanzar?

Y eventualmente, si la gente simplemente comienza a vincularlo-“

Presupuesto de rastreo y sitios que se indexan

Para resumir algo de lo que se discutió:

  • Google no tiene capacidad infinita y no puede indexar todo en la web.
  • Debido a que Google no puede indexar todo, es importante ser selectivo al indexar solo el contenido que importa.
  • Los temas de contenido que importan tienden a ser discutidos
  • Sitios que son importantes, que tienden a ser útiles, tienden a ser discutidos y vinculados a

Obviamente, esa no es una lista completa de todo lo que influye en lo que se indexa. Tampoco pretende ser una lista de verificación de SEO.

Es solo una idea del tipo de cosas que son tan importantes que Gary Illyes y Martin Splitt discutieron.


Imagen destacada de Shutterstock/Trismegist san

Citación

Escucha el podcast aquí:





Consultar el artículo en la publicación original

Google comparte información sobre la indexación y el presupuesto de rastreo