Cómo funciona la marca de agua de ChatGPT y por qué podría anularse


ChatGPT de OpenAI introdujo una forma de crear contenido automáticamente, pero los planes para introducir una función de marca de agua para que sea más fácil de detectar están poniendo nerviosas a algunas personas. Así es como funciona la marca de agua de ChatGPT y por qué puede haber una manera de vencerla.

ChatGPT es una herramienta increíble que los editores en línea, los afiliados y los SEO adoran y temen al mismo tiempo.

A algunos especialistas en marketing les encanta porque están descubriendo nuevas formas de usarlo para generar resúmenes de contenido, esquemas y artículos complejos.

Los editores en línea temen la posibilidad de que el contenido de IA inunde los resultados de búsqueda, reemplazando los artículos de expertos escritos por humanos.

En consecuencia, la noticia de una función de marca de agua que desbloquea la detección de contenido creado por ChatGPT también se anticipa con ansiedad y esperanza.

Marca de agua criptográfica

Una marca de agua es una marca semitransparente (un logotipo o texto) que se incrusta en una imagen. La marca de agua señala quién es el autor original de la obra.

Se ve en gran parte en fotografías y cada vez más en videos.

El texto de marca de agua en ChatGPT implica criptografía en forma de incrustación de un patrón de palabras, letras y puntuación en forma de código secreto.

Marca de agua de Scott Aaronson y ChatGPT

OpenAI contrató a un científico informático influyente llamado Scott Aaronson en junio de 2022 para trabajar en AI Safety and Alignment.

AI Safety es un campo de investigación que se ocupa de estudiar las formas en que la IA podría representar un daño para los humanos y crear formas de prevenir ese tipo de interrupción negativa.

La revista científica Distill, con autores afiliados a OpenAI, define la seguridad de la IA Me gusta esto:

“El objetivo de la seguridad de la inteligencia artificial (IA) a largo plazo es garantizar que los sistemas avanzados de IA estén alineados de manera confiable con los valores humanos, que hagan de manera confiable las cosas que la gente quiere que hagan”.

AI Alignment es el campo de la inteligencia artificial que se ocupa de asegurarse de que la IA esté alineada con los objetivos previstos.

Un modelo de lenguaje grande (LLM) como ChatGPT se puede usar de una manera que puede ir en contra de los objetivos de Alineación de IA según lo definido por OpenAIque es crear IA que beneficie a la humanidad.

En consecuencia, el motivo de la marca de agua es evitar el mal uso de la IA de una manera que perjudique a la humanidad.

Aaronson explicó el motivo de la marca de agua de la salida de ChatGPT:

“Esto podría ser útil para prevenir el plagio académico, obviamente, pero también, por ejemplo, la generación masiva de propaganda…”

¿Cómo funciona la marca de agua de ChatGPT?

La marca de agua de ChatGPT es un sistema que incorpora un patrón estadístico, un código, en las opciones de palabras e incluso en los signos de puntuación.

El contenido creado por inteligencia artificial se genera con un patrón bastante predecible de elección de palabras.

Las palabras escritas por humanos e IA siguen un patrón estadístico.

Cambiar el patrón de las palabras utilizadas en el contenido generado es una forma de «marcar con agua» el texto para facilitar que un sistema detecte si fue producto de un generador de texto de IA.

El truco que hace que la marca de agua del contenido de la IA sea indetectable es que la distribución de las palabras sigue teniendo una apariencia aleatoria similar al texto normal generado por la IA.

Esto se conoce como una distribución pseudoaleatoria de palabras.

La pseudoaleatoriedad es una serie estadísticamente aleatoria de palabras o números que en realidad no son aleatorios.

La marca de agua ChatGPT no está actualmente en uso. Sin embargo, Scott Aaronson en OpenAI está registrado afirmando que está planeado.

En este momento, ChatGPT se encuentra en vista previa, lo que permite que OpenAI descubra la «desalineación» a través del uso en el mundo real.

Presumiblemente, la marca de agua se puede introducir en una versión final de ChatGPT o antes.

scott aaronson escribió sobre cómo funciona la marca de agua:

“Hasta ahora, mi proyecto principal ha sido una herramienta para marcar con agua estadísticamente los resultados de un modelo de texto como GPT.

Básicamente, cada vez que GPT genera un texto largo, queremos que haya una señal secreta imperceptible en sus elecciones de palabras, que puede usar para demostrar más tarde que sí, esto vino de GPT».

Aaronson explicó con más detalle cómo funciona la marca de agua de ChatGPT. Pero primero, es importante comprender el concepto de tokenización.

La tokenización es un camino que ocurre en el procesamiento del lenguaje natural donde la máquina toma las palabras de un documento y las descompone en unidades semánticas como palabras y oraciones.

La tokenización cambia el texto a una forma estructurada que se puede usar en el aprendizaje automático.

El proceso de generación de texto es la máquina que adivina qué token viene a continuación en función del token anterior.

Esto se hace con una función matemática que determina la probabilidad de cuál será el siguiente token, lo que se denomina distribución de probabilidad.

Se predice qué palabra sigue, pero es aleatoria.

La marca de agua en sí misma es lo que Aaron describe como pseudoaleatorio, en el sentido de que existe una razón matemática para que una palabra en particular o un signo de puntuación estén allí, pero sigue siendo estadísticamente aleatorio.

Aquí está la explicación técnica de la marca de agua GPT:

“Para GPT, cada entrada y salida es una cadena de tokens, que pueden ser palabras pero también signos de puntuación, partes de palabras o más; hay alrededor de 100 000 tokens en total.

En esencia, GPT genera constantemente una distribución de probabilidad sobre el próximo token a generar, condicional a la cadena de tokens anteriores.

Después de que la red neuronal genera la distribución, el servidor OpenAI luego muestra un token de acuerdo con esa distribución, o alguna versión modificada de la distribución, según un parámetro llamado ‘temperatura’.

Sin embargo, siempre que la temperatura no sea cero, por lo general habrá cierta aleatoriedad en la elección del siguiente token: puede ejecutar una y otra vez con el mismo mensaje y obtener una finalización diferente (es decir, una cadena de tokens de salida) cada vez .

Entonces, para hacer una marca de agua, en lugar de seleccionar el siguiente token al suerte, la idea será seleccionarlo pseudoaleatoriamente, utilizando una función pseudoaleatoria criptográfica, cuya clave solo conoce OpenAI”.

La marca de agua parece completamente natural para quienes leen el texto porque la elección de las palabras imita la aleatoriedad de todas las demás palabras.

Pero esa aleatoriedad contiene un sesgo que solo puede ser detectado por alguien con la clave para decodificarlo.

Esta es la explicación técnica:

“Para ilustrar, en el caso especial de que GPT tuviera un montón de tokens posibles que consideró igualmente probables, simplemente podría elegir el token que maximizaba g. La elección parecería uniformemente aleatoria para alguien que no conociera la clave, pero alguien que sí la conociera podría luego sumar todos los n-gramas y ver que era anómalamente grande”.

La marca de agua es una solución que prioriza la privacidad

He visto discusiones en las redes sociales donde algunas personas sugirieron que OpenAI podría mantener un registro de cada resultado que genera y usarlo para la detección.

Scott Aaronson confirma que OpenAI podría hacer eso, pero que hacerlo plantea un problema de privacidad. La posible excepción es para la situación de aplicación de la ley, sobre la cual no dio más detalles.

Cómo detectar marcas de agua de ChatGPT o GPT

Algo interesante que parece no ser muy conocido todavía es que Scott Aaronson señaló que hay una manera de vencer la marca de agua.

no dijo que es posible para vencer la marca de agua, dijo que lata ser derrotado.

“Ahora, todo esto puede ser derrotado con suficiente esfuerzo.

Por ejemplo, si usó otra IA para parafrasear la salida de GPT, está bien, no podremos detectar eso”.

Parece que la marca de agua se puede derrotar, al menos a partir de noviembre, cuando se hicieron las declaraciones anteriores.

No hay indicios de que la marca de agua esté actualmente en uso. Pero cuando entre en uso, es posible que se desconozca si se cerró esta laguna.

Citación

Leer de Scott Aaronson publicación de blog aquí.

Imagen destacada de Shutterstock/RealPeopleStudio





Consultar el artículo en la publicación original

Cómo funciona la marca de agua de ChatGPT y por qué podría anularse
A %d blogueros les gusta esto: