OpenAI lanza GPTBot con detalles sobre cómo restringir el acceso

[ad_1]

OpenAI ha lanzado GPTBot, un nuevo rastreador web para mejorar los futuros modelos de inteligencia artificial como GPT-4 y el futuro GPT-5.

Cómo funciona GPTBot

Reconocible por el siguiente token de agente de usuario y la cadena completa de agente de usuario, este sistema busca en la web datos que puedan mejorar la precisión, las capacidades y la seguridad de la tecnología de IA.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Según se informa, debe filtrar estrictamente cualquier fuente restringida por paywall, fuentes que violen las políticas de OpenAI o fuentes que recopilen información de identificación personal.

La utilización de GPTBot puede potencialmente proporcionar un impulso significativo a los modelos de IA.

Al permitirle aceptar a su sitio, contribuye a este conjunto de datos, mejorando así el ecosistema general de IA.

Sin embargo, no es un escenario único para todos. OpenAI ha otorgado a los administradores web el poder de elegir si otorgar o no acceso a GPTBot a sus sitios web.

Restricción del acceso de GPTBot

Si los propietarios de sitios web desean restringir GPTBot de su sitio, pueden modificar su archivo robots.txt.

Al incluir lo siguiente, pueden evitar que GPTBot acceda a la totalidad de su sitio web.

User-agent: GPTBot
Disallow: /

Por el contrario, aquellos que deseen otorgar acceso parcial pueden personalizar los directorios a los que puede aceptar GPTBot. Para hacer esto, agregue lo siguiente al archivo robots.txt.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Con respecto a las operaciones técnicas de GPTBot, cualquier llamada realizada a sitios web se origina en rangos de direcciones IP documentados en OpenAI. sitio web. Este detalle brinda mayor transparencia y claridad a los administradores web sobre la fuente de tráfico en sus sitios.

Permitir o prohibir la GPTBot El rastreador web podría afectar significativamente la privacidad, la seguridad y la contribución de los datos de su sitio al avance de la IA.

Preocupaciones legales y éticas

Las últimas novedades de OpenAI han suscitado un debate sobre Noticias de piratas informáticos en torno a la ética y la legalidad del uso de datos web raspados para entrenar sistemas de IA patentados.

GPTBot se identifica a sí mismo para que los administradores web puedan bloquearlo a través de robots.txt, pero algunos argumentan que no hay ningún beneficio en permitirlo, a diferencia de los rastreadores de motores de búsqueda que generan tráfico. Una preocupación importante es el contenido protegido por derechos de autor que se utiliza sin atribución. ChatGPT actualmente no cita fuentes.

También hay preguntas sobre cómo GPTBot maneja imágenes, videos, música y otros medios con licencia que se encuentran en los sitios web. Si ese medio termina en la formación de modelos, podría constituir una infracción de derechos de autor. Algunos expertos creen que los datos generados por rastreadores podrían degradar los modelos si el contenido escrito por IA se retroalimenta en el entrenamiento.

Por el contrario, algunos creen que OpenAI tiene derecho a usar datos web públicos libremente, comparándolos con una persona que aprende del contenido en línea. Sin embargo, otros argumentan que OpenAI debería compartir las ganancias si monetiza los datos web para obtener ganancias comerciales.

En general, GPTBot ha abierto debates complejos sobre la propiedad, el uso justo y los incentivos de los creadores de contenido web. Si bien seguir robots.txt es un buen camino, todavía falta transparencia. La comunidad tecnológica se pregunta cómo se utilizarán sus datos a medida que los productos de IA avancen rápidamente.


Imagen destacada: Vitor Miranda/Shutterstock



[ad_2]

Consultar el artículo en la publicación original

OpenAI lanza GPTBot con detalles sobre cómo restringir el acceso
Salir de la versión móvil