¿Por qué Google Gemini «filtró» datos de chat?

[ad_1]

Sólo pasaron veinticuatro horas después de que Gemini de Google fuera lanzado públicamente para que alguien notara que los chats se mostraban públicamente en los resultados de búsqueda de Google. Google respondió rápidamente a lo que parecía ser una filtración. La razón por la que sucedió esto es bastante increíble y no tan siniestra como parece a primera vista.

@shemiadhikarath tuiteó:

«Unas horas después del lanzamiento de @Google Gemini, motores de búsqueda como Bing han indexado conversaciones públicas de Gemini».

Publicaron una captura de pantalla de la búsqueda del sitio gemini.google.com/share/

Pero si miras la captura de pantalla, verás que hay un mensaje que dice: «Nos gustaría mostrarle una descripción aquí, pero el sitio no nos lo permite».

Temprano en la mañana del martes 13 de febrero, los chats de Google Gemini comenzaron a desaparecer de los resultados de búsqueda de Google; Google solo mostraba tres resultados de búsqueda. Por la tarde, el número de chats de Gemini filtrados que aparecen en los resultados de búsqueda se había reducido a un solo resultado de búsqueda.

Captura de pantalla de los resultados de búsqueda de Google para páginas indexadas desde el subdominio de chat de Google Gemini

¿Cómo se crearon las páginas de chat de Gemini?

Gemini ofrece una forma de crear un enlace a una versión visible públicamente de un chat privado.

Google no crea automáticamente páginas web a partir de chats privados. Los usuarios crean las páginas de chat a través de un enlace en la parte inferior de cada chat.

Captura de pantalla de cómo crear una página de chat compartida

¿Por qué se indexaron las páginas de chat de Gemini?

La razón obvia por la que se rastrearon e indexaron las páginas de chat es porque Google olvidó colocar un archivo robots.txt en la raíz del subdominio Gemini (gemini.google.com).

Un archivo robots.txt es un documento para controlar la actividad de los rastreadores en sitios web. Un editor puede bloquear rastreadores específicos mediante el uso de comandos estandarizados en el protocolo Robots.txt.

Revisé el archivo robots.txt a las 4:19 a.m. del 13 de febrero y vi que había uno en su lugar:

Luego revisé Internet Archive para ver cuánto tiempo llevaba el archivo robots.txt en su lugar y descubrí que estaba allí al menos desde el 8 de febrero, el día en que se anunciaron las aplicaciones Gemini.

Eso significa que la razón obvia por la que se rastrearon las páginas de chat no es la razón correcta, es simplemente la razón más obvia.

Aunque el subdominio Google Gemini tenía un archivo robots.txt que bloqueaba a los rastreadores web tanto de Bing como de Google, ¿cómo terminaron rastreando esas páginas e indexándolas?

Páginas de chat privadas de dos formas descubiertas e indexadas

  • Puede que haya un enlace público en alguna parte.
  • Menos probable, pero quizás posible, es que hayan sido descubiertos a través del historial de navegación vinculado desde las cookies.

Es más probable que haya enlaces públicos. Pero si hay un enlace público, ¿por qué Google empezó a eliminar las páginas de chat por completo? ¿Google creó una regla interna para que el rastreador de búsqueda excluya las páginas web de la carpeta /share/ del índice de búsqueda, incluso si están vinculadas públicamente?

Información sobre cómo indexar el contenido de búsqueda de Bing y Google

Ahora aquí está la parte realmente interesante para todos los fanáticos de las búsquedas interesados ​​en cómo Google y Bing indexan el contenido.

El índice de búsqueda de Microsoft Bing respondió al contenido de Gemini de manera diferente a como lo hizo la búsqueda de Google. Mientras que Google todavía mostraba tres resultados de búsqueda en la madrugada del 13 de febrero, Bing solo mostraba un resultado del subdominio. Había una calidad aparentemente aleatoria en lo que se indexaba y en la cantidad.

¿Por qué se filtraron las páginas de chat de Gemini?

Estos son los hechos conocidos: Google tenía un archivo robots.txt desde el 8 de febrero. Tanto Google como Bing indexaron páginas del subdominio gemini.google.com. Google indexó el contenido independientemente del archivo robots.txt y luego comenzó a deshacerse de él.

  • ¿Tiene el robot de Google instrucciones diferentes para indexar contenido en los subdominios de Google?
  • ¿El robot de Google rastrea e indexa de forma rutinaria el contenido bloqueado por robots.txt y luego lo descarta?
  • ¿Los datos filtrados estaban vinculados desde algún lugar que los bots pudieran rastrear, lo que provocó que el contenido bloqueado fuera rastreado e indexado?

El contenido bloqueado por Robots.txt aún se puede descifrar, rastrear y terminar en el índice de búsqueda y clasificar en las SERP o al menos a través de un sitio: búsqueda. Creo que este puede ser el caso.

Pero si ese es el caso, ¿por qué empezaron a disminuir los resultados de la búsqueda?

Si el motivo del rastreo y la indexación fue porque esos chats privados estaban vinculados desde algún lugar, ¿se eliminó la fuente de los vínculos?

La gran pregunta es ¿dónde están esos vínculos? ¿Podría estar relacionado con anotaciones de evaluadores de calidad que se filtraron involuntariamente a Internet?



[ad_2]

Consultar el artículo en la publicación original

¿Por qué Google Gemini «filtró» datos de chat?
Salir de la versión móvil