Cuánto tiempo antes de que Google indexe mi nueva página (y por qué depende)


¿No puede esperar a que se indexe su nuevo contenido?

Descubra por qué es tan complicado estimar cuánto tiempo puede tomar la indexación y lo que puede hacer para acelerar las cosas.

La indexación es el proceso de descargar información de su sitio web, categorizarla y almacenarla en una base de datos. Esta base de datos, el índice de Google, es la fuente de toda la información que puede encontrar a través de la Búsqueda de Google.

Las páginas que no están incluidas en el índice no pueden aparecer en los resultados de búsqueda, sin importar qué tan bien coincidan con una consulta determinada.

Supongamos que recientemente agregó una nueva página a su blog. En su nueva publicación, habla sobre un tema de actualidad, con la esperanza de que le brinde mucho tráfico nuevo.

Pero antes de que pueda ver cómo le está yendo a la página en la Búsqueda de Google, debe esperar a que se indexe.

Entonces, ¿cuánto tiempo dura exactamente este proceso? ¿Y cuándo debería empezar a preocuparse de que la falta de indexación pueda indicar problemas técnicos en su sitio?

¡Vamos a investigar!

¿Cuánto tarda la indexación? Las mejores conjeturas de los expertos

El índice de Google contiene cientos de miles de millones de páginas web y ocupa más de 100 millones de gigabytes de memoria.

Además, Google no limita la cantidad de páginas que se pueden indexar en un sitio web. Si bien algunas páginas pueden tener prioridad en la cola de indexación, las páginas generalmente no tienen que competir por la indexación.

Todavía debería haber espacio para una pequeña página más en esta colosal base de datos, ¿verdad? ¿No hay necesidad de preocuparse por la entrada de su blog? Desafortunadamente, es posible que tengas que hacerlo.

Google admite que no se indexarán todas las páginas procesadas por sus rastreadores.

En enero de 2021, el defensor de la búsqueda de Google, John Mueller, elaboró ​​​​sobre el tema y reveló que es bastante normal que Google no indexe todas las páginas de un sitio web grande.

Explicó que el desafío para Google es tratar de igualar querer indexar la mayor cantidad de contenido posible con estimar si será útil para los usuarios del motor de búsqueda.

Por lo tanto, en muchos casos, no indexar un determinado contenido es una elección estratégica de Google.

Google no quiere que su índice incluya páginas de contenido duplicado de baja calidad, o páginas que es poco probable que busquen los usuarios. La mejor manera de mantener el spam fuera de los resultados de búsqueda es no indexarlo.

Pero mientras mantengas las publicaciones de tu blog valiosas y útiles, seguirán siendo indexadas, ¿verdad?

La respuesta es complicada.

Tomek Rudzki, experto en indexación de Onely, una empresa para la que trabajo, calculó que, en promedio, dieciséis% de páginas valiosas e indexables en sitios web populares nunca se indexan.

¿Existe alguna garantía de que su página será indexada?

Como ya habrá adivinado por el título de este artículo, no hay una respuesta definitiva a esta pregunta de indexación.

No podrá establecer un recordatorio de calendario el día en que se indexará la publicación de su blog.

Pero muchas personas han hecho la misma pregunta antes, instando a los Googlers y a los profesionales de SEO con experiencia a que brinden algunos consejos.

John Müller dice puede tomar desde varias horas hasta varias semanas para que una página sea indexada. Sospecha que la mayor parte del buen contenido se recoge e indexa en aproximadamente una semana.

La investigación realizada por Rudzki mostró que, en promedio, 83% de las páginas se indexan en la primera semana de publicación.

Algunas páginas tienen que esperar hasta ocho semanas para ser indexadas. Por supuesto, esto solo se aplica a las páginas que finalmente se indexan.

Demanda de rastreo y presupuesto de rastreo

Para que se descubra e indexe una nueva página de tu blog, Googlebot tiene que volver a rastrear el blog.

La frecuencia con la que Googlebot vuelve a rastrear su sitio web ciertamente afecta la rapidez con la que se indexará su nueva página, y eso depende de la naturaleza del contenido y la frecuencia con la que se actualiza.

Los sitios web de noticias que publican contenido nuevo con mucha frecuencia deben volver a rastrearse con frecuencia. Podemos decir que son sitios con alta demanda de rastreo.

Un ejemplo de un sitio de baja demanda de rastreo sería un sitio sobre la historia de la herrería, ya que es poco probable que su contenido se actualice con mucha frecuencia.

Google determina automáticamente si el sitio tiene una demanda de rastreo baja o alta. Durante el rastreo inicial, comprueba de qué se trata el sitio web y cuándo se actualizó por última vez.

La decisión de rastrear el sitio con mayor o menor frecuencia no tiene nada que ver con la calidad del contenido; el factor decisivo es la frecuencia estimada de las actualizaciones.

El segundo factor importante es el tasa de rastreo. Es la cantidad de solicitudes que Googlebot puede realizar sin sobrecargar su servidor.

Si aloja su blog en un servidor con poco ancho de banda y Googlebot nota que el servidor se está ralentizando, ajustará y reducirá la frecuencia de rastreo.

Por otro lado, si el sitio responde rápidamente, el límite aumenta y Googlebot puede rastrear más URL.

¿Qué debe suceder antes de que se indexe su página?

Dado que la indexación lleva tiempo, uno también puede preguntarse: ¿cómo se gasta exactamente ese tiempo?

¿Cómo se clasifica e incluye la información de su sitio web en el índice de Google?

Analicemos los eventos que deben ocurrir antes de la indexación.

Descubrimiento de contenido

Volvamos al ejemplo en el que publicó una nueva entrada de blog. Googlebot necesita encontrar la URL de esta página en el primer camino de la canalización de indexación.

Puede suceder por:

  • Siguiendo enlaces internos proporcionaste en otras páginas de tu blog.
  • Siguiendo enlaces externos creado por personas que encontraron útil su nuevo contenido.
  • Pasando por un mapa del sitio XML que subiste a Google Search Console.

El hecho de que la página haya sido descubierta significa que Google conoce su existencia y URL.

gateando

El rastreo es el proceso de visitar la URL y obtener el contenido de la página.

Mientras rastrea, Googlebot recopila información sobre el tema principal de una página determinada, qué archivos contiene esta página, qué palabras clave aparecen en ella, etc.

Después de encontrar enlaces en una página, el rastreador los sigue a la página siguiente y el ciclo continúa.

Es importante recordar que Googlebot sigue las reglas establecidas por robots.txt para que no rastree las páginas bloqueadas por las directivas que proporcionas en ese archivo.

Representación

renderizado en GSCCaptura de pantalla de Google Search Console, septiembre de 2022

La representación debe realizarse para que Googlebot comprenda tanto el contenido de JavaScript como los archivos de imágenes, audio y video.

Este tipo de archivos siempre fueron una lucha mayor para Google que HTML.

El defensor de los desarrolladores de Google, Martin Splitt, comparó el renderizado con cocinar un plato.

En esta metáfora, el archivo HTML inicial de un sitio web con enlaces a otros contenidos es una receta. Puede presionar F12 en su teclado para verlo en su navegador.

Todos los recursos del sitio web, como CSS, archivos JavaScript, imágenes y videos, son los ingredientes necesarios para darle al sitio web su aspecto final.

Cuando el sitio web alcanza este estado, está lidiando con el HTML renderizado, más a menudo llamado Modelo de objeto de documento.

Martin también dijo que ejecutar JavaScript es la primera etapa de renderizado porque JavaScript funciona como una receta dentro de una receta.

En un pasado no muy lejano, Googlebot solía indexar la versión HTML inicial de una página y dejaba la representación de JavaScript para más tarde debido al costo y la naturaleza lenta del proceso.

La industria de SEO se refirió a ese fenómeno como “las dos olas de indexación”.

Sin embargo, ahora parece que las dos olas ya no son necesarias.

Mueller y Splitt admitieron que, hoy en día, casi todos los sitios web nuevos pasan por la etapa de renderizado de forma predeterminada.

Uno de los objetivos de Google es lograr que el rastreo, la renderización y la indexación se realicen de manera más cercana.

¿Puedes indexar tu página más rápido?

No puede forzar a Google a indexar su nueva página.

La rapidez con que esto sucede también está fuera de su control. Sin embargo, puede optimizar sus páginas para que el descubrimiento y el rastreo se realicen de la mejor manera posible.

Esto es lo que debe hacer:

Asegúrate de que tu página sea indexable

Hay dos reglas importantes a seguir para mantener sus páginas indexables:

  • Debe evitar bloquearlos mediante robots.txt o la directiva noindex.
  • Debe marcar la versión canónica de una determinada pieza de contenido con una etiqueta canónica.

Robots.txt es un archivo que contiene instrucciones para los robots que visitan su sitio.

Puede usarlo para especificar qué rastreadores no pueden visitar ciertas páginas o carpetas. Todo lo que tienes que hacer es usar la directiva disallow.

Por ejemplo, si no desea que los robots visiten páginas y archivos en la carpeta titulada «ejemplo», su archivo robots.txt debe contener las siguientes directivas:

User-agent: *

Disallow: /example/

A veces, es posible bloquear a Googlebot para que no indexe páginas valiosas por error.

Si le preocupa que su página no esté indexada debido a problemas técnicos, definitivamente debería echar un vistazo a su archivo robots.txt.

Googlebot es cortés y no pasará ninguna página que se le haya dicho que no pase a la canalización de indexación. Una forma de expresar tal comando es poner una directiva noindex en:

Asegúrese de que esta directiva no aparezca en las páginas que deben indexarse.

Como comentamos, Google quiere evitar la indexación de contenido duplicado. Si encuentra dos páginas que parecen copias una de la otra, es probable que solo indexe una de ellas.

La etiqueta canónica fue creado para evitar malentendidos y liderar inmediatamente a Googlebot a la URL que el propietario del sitio web considera la versión original de la página.

Recuerda que el código fuente de una página que quieres que esté presente en el índice de Google no debe apuntar a otra página como canónica.

Enviar un mapa del sitio

un mapa del sitio enumera todas las URL de su sitio web que le gustaría indexar (hasta 50,000).

Puede enviarlo a Google Search Console para ayudar a Google a encontrar el mapa del sitio más rápidamente.

Con un mapa del sitio, facilita que Googlebot descubra sus páginas y aumenta las posibilidades de que rastree aquellas que no encontró mientras seguía enlaces internos.

Es una buena práctica hacer referencia al mapa del sitio en su archivo robots.txt.

Pídele a Google que vuelva a rastrear tus páginas

Herramienta de inspección GSCCaptura de pantalla de Google Search Console, septiembre de 2022

Puede solicitar un rastreo de URL individuales utilizando el Herramienta de inspección de URL disponible en Google Search Console.

Todavía no garantizará la indexación y necesitará un poco de paciencia, pero es otra forma de asegurarse de que Google sepa que su página existe.

Si es relevante, use la API de indexación de Google

La API de indexación es una herramienta que le permite notificar a Google sobre páginas recién agregadas.

Gracias a esta herramienta, Google puede programar la indexación de contenido sensible al tiempo de manera más eficiente.

Desafortunadamente, no puede usarlo para las publicaciones de su blog porque, actualmente, esta herramienta está destinada solo a páginas con ofertas de trabajo y videos en vivo.

Si bien algunos profesionales de SEO usan la API de indexación para otros tipos de páginas, y podría funcionar a corto plazo, es dudoso que siga siendo una solución viable a largo plazo.

Evite la sobrecarga del servidor en su sitio

Finalmente, recuerde garantizar un buen ancho de banda de su servidor para que Googlebot no reduzca la tasa de rastreo de su sitio web.

Evite el uso de proveedores de hospedaje compartido y recuerde realizar pruebas de estrés periódicas a su servidor para asegurarse de que pueda manipular el trabajo.

Resumen

Es imposible predecir con precisión cuánto tiempo llevará indexar su página (o si alguna vez sucederá) porque Google no indexa todo el contenido que procesa.

Por lo general, la indexación ocurre horas o semanas después de la publicación.

El mayor cuello de botella para ser indexado es ser rastreado rápidamente.

Si su contenido cumple con los umbrales de calidad y no hay obstáculos técnicos para la indexación, debe observar principalmente cómo Googlebot rastrea su sitio para indexar contenido nuevo rápidamente.

Antes de que una página se redirija a la canalización de indexación, Googlebot la rastrea y, en muchos casos, presenta imágenes, videos y elementos de JavaScript incrustados.

Los sitios web que cambian con más frecuencia y, por lo tanto, tienen una mayor demanda de rastreo se vuelven a rastrear con más frecuencia.

Cuando Googlebot visite su sitio web, igualará la frecuencia de rastreo en función de la cantidad de consultas que puede enviar a su servidor sin sobrecargarlo.

Por lo tanto, vale la pena cuidar el buen ancho de banda del servidor.

No bloquees Googlebot en robots.txt porque no rastreará tus páginas.

Recuerde que Google también respeta la metaetiqueta de robots noindex y generalmente indexa solo la versión canónica de la URL.

Más recursos:


Imagen destacada: Kristo-Gothard Hunor/Shutterstock





Consultar el artículo en la publicación original

Cuánto tiempo antes de que Google indexe mi nueva página (y por qué depende)
A %d blogueros les gusta esto: