¿Tiene Google algún problema con los archivos Big Robots.txt?


Google aborda el tema de los archivos robots.txt y si es una buena práctica de SEO mantenerlos dentro de un tamaño razonable.

Este tema es discutido por el defensor de búsqueda de Google, John Mueller, durante el hangout en horario de oficina de Google Search Central SEO registrado el 14 de enero.

David Zieger, gerente de SEO de una gran editorial de noticias en Alemania, se une a la transmisión en vivo preocupado por un archivo robots.txt «enorme» y «complejo».

¿Qué tan grande estamos hablando aquí?

Zieger dice que hay más de 1500 líneas con una «multitud» de rechazos que sigue creciendo con los años.

Los rechazos evitan que Google indexe fragmentos HTML y URL donde se usan llamadas AJAX.

Zieger dice que no es posible configurar un noindex, que es otra forma de mantener los fragmentos y las URL fuera del índice de Google, por lo que recurrió a llenar el archivo robots.txt del sitio con rechazos.

¿Hay algún efecto SEO negativo que pueda resultar de un archivo robots.txt de gran tamaño?

Esto es lo que dice Mueller.

Consideraciones de SEO para archivos grandes Robots.txt

Un archivo robots.txt grande no sin rodeos ocasionar un impacto negativo en el SEO de un sitio.

Sin embargo, un archivo grande es más arduo de mantener, lo que puede incitar problemas accidentales en el futuro.

Müller explica:

“No hay problemas de SEO negativos directos con eso, pero lo hace mucho más difícil de mantener. Y hace que sea mucho más fácil empujar accidentalmente algo que causa problemas.

Entonces, el hecho de que sea un archivo grande no significa que sea un problema, pero facilita la creación de problemas”.

Zieger continúa preguntando si hay algún problema con no incluir un mapa del sitio en el archivo robots.txt.

Mueller dice que eso no es un problema:

«No. Esas diferentes formas de enviar un mapa del sitio son todas equivalentes para nosotros”.

Zieger luego lanza varias preguntas de seguimiento más que veremos en la siguiente sección.

¿Google reconoce fragmentos de HTML?

Zieger le pregunta a Mueller cuál sería el impacto SEO de acortar radicalmente el archivo robots.txt. Como eliminar todos los rechazos, por ejemplo.

Se hacen las siguientes preguntas:

  • ¿Google reconoce fragmentos HTML que no son relevantes para los visitantes del sitio?
  • ¿Acabarían los fragmentos de HTML en el índice de búsqueda de Google si no estuvieran prohibidos en robots.txt?
  • ¿Cómo trata Google las páginas en las que se utilizan llamadas AJAX? (como un elemento de encabezado o pie de página)

Resume sus preguntas afirmando que la mayoría de los elementos no permitidos en su archivo robots.txt son elementos de encabezado y pie de página que no son interesantes para el usuario.

Mueller dice que es difícil saber exactamente qué sucedería si se permitiera indexar esos fragmentos de repente.

Un enfoque de prueba y error podría ser la mejor manera de resolver esto, explica Mueller:

«Es arduo decir lo que quieres decir con respecto a esos fragmentos

Pensé que sería tratar de averiguar cómo se usan esos fragmentos de URL. Y si no está seguro, tal vez tome uno de estos fragmentos de URL y permita su rastreo, mire el contenido de ese fragmento de URL y luego verifique qué sucede en la búsqueda.

¿Afecta algo con respecto al contenido indexado en su sitio?
¿Se puede encontrar parte de ese contenido dentro de su sitio de repente?
¿Es eso un problema o no?

E intente trabajar en base a eso, porque es muy fácil bloquear cosas mediante robots.txt, que en realidad no se usan para la indexación, y luego pasa mucho tiempo manteniendo este gran archivo robots.txt, pero en realidad no lo hace. cambia mucho para tu sitio web”.

Otras consideraciones para crear un archivo Robots.txt

Zieger tiene un último seguimiento con respecto a los archivos robots.txt, preguntando si hay pautas específicas a seguir al crear uno.

Mueller dice que no hay un formato específico a seguir:

“No, básicamente depende de ti. Al igual que algunos sitios tienen archivos grandes, algunos sitios tienen archivos pequeños, todos deberían funcionar.

Tenemos un código fuente abierto del analizador robots.txt que usamos. Entonces, lo que también puede hacer es hacer que sus desarrolladores ejecuten ese analizador por usted, o configurarlo para que pueda probarlo, y luego verifique las URL en su sitio web con ese analizador para ver qué URL realmente se bloquearían y lo que eso cambiaría. Y de esa manera puedes probar las cosas antes de hacerlas vivir”.

El analizador de robots.txt al que se refiere Mueller se puede encontrar en Github.

Escuche la discusión completa en el siguiente video:


Imagen destacada: captura de pantalla de YouTube.com/GoogleSearchCentral, enero de 2022.





Consultar el artículo en la publicación original

¿Tiene Google algún problema con los archivos Big Robots.txt?