La cadena de indicaciones de pensamiento de Google puede impulsar los mejores algoritmos actuales


Google anunció una investigación revolucionaria en el procesamiento del lenguaje natural llamada Chain of Thought Prompting que eleva el estado del arte de tecnologías avanzadas como PaLM y LaMDA a lo que los investigadores llaman un nivel notable.

El hecho de que Chain of Thought Prompting pueda mejorar PaLM y LaMDA a estas tasas significativas es un gran problema.

LaMDA y PaLM

La investigación realizó experimentos utilizando dos modelos de lenguaje, el Modelo de lenguaje para aplicaciones de diálogo (LaMDA) y el Modelo de lenguaje Pathways (PaLM).

LaMDA es un modelo centrado en la conversación, como un chatbot, pero también se puede utilizar para muchas otras aplicaciones que requieren hablar, dialogar.

PaLM es un modelo que sigue lo que Google llama la arquitectura Pathways AI, donde se entrena un modelo de lenguaje para aprender a dar con problemas.

Anteriormente, los modelos de aprendizaje automático se entrenaban para dar con un tipo de problema y se soltaban esencialmente para hacer esa única cosa realmente bien. Pero para poder hacer algo más, Google tendría que entrenar un nuevo modelo.

La arquitectura Pathways AI es una forma de crear un modelo que puede dar con problemas que no necesariamente ha visto antes.

Como se cita en el Google Palma explicador:

«… nos gustaría entrenar un modelo que no solo pueda manejar muchas tareas separadas, sino que también aproveche y combine sus habilidades existentes para aprender nuevas tareas de manera más rápida y efectiva».

Que hace

El trabajo de investigación enumera tres avances importantes para el razonamiento de la cadena de pensamiento:

  1. Permite que los modelos de lenguaje dividan problemas complejos de varios pasos en una secuencia de pasos.
  2. La cadena del proceso de pensamiento permite a los ingenieros echar un vistazo al proceso y, cuando las cosas salen mal, les permite identificar dónde salió mal y solucionarlo.
  3. Puede dar con problemas matemáticos verbales, puede lograr un razonamiento de sentido común y, según el trabajo de investigación, puede (en principio) dar con cualquier problema basado en palabras que un ser humano pueda.

Tareas de razonamiento de varios pasos

La investigación da un ejemplo de una tarea de razonamiento de varios pasos en la que se prueban los modelos de lenguaje:

“P: La cafetería tenía 23 manzanas. Si usaron 20 para hacer el almuerzo y compraron 6 más, ¿cuántas manzanas tienen?

A: La cafetería tenía originalmente 23 manzanas. Usaron 20 para hacer el almuerzo. Así que tenían 23 – 20 = 3. Compraron 6 manzanas más, así que tienen 3 + 6 = 9. La respuesta es 9”.

PaLM es un modelo de lenguaje de última generación que forma parte de la arquitectura Pathways AI. Es tan avanzado que puede explicar por qué una broma es divertida.

Sin embargo, a pesar de lo avanzado que es PaLM, los investigadores afirman que Chain of Thought Prompting mejora significativamente estos modelos, y eso es lo que hace que esta nueva investigación sea tan digna de tomar nota.
Google lo explica así:

“El razonamiento en cadena de pensamiento permite que los modelos descompongan problemas complejos en pasos intermedios que se resuelven individualmente.

Además, la naturaleza de la cadena de pensamiento basada en el lenguaje la hace aplicable a cualquier tarea que una persona pueda dar con a través del lenguaje”.

Luego, el trabajo de investigación continúa señalando que las indicaciones estándar no mejoran realmente cuando se aumenta la escala del modelo.

Sin embargo, con este nuevo enfoque, la escala tiene un impacto positivo significativo y notable en el rendimiento del modelo.

Resultados

Chain of Thought Prompting se probó tanto en LaMDA como en PaLM, utilizando dos conjuntos de datos de problemas de palabras matemáticos.

Los investigadores utilizan estos conjuntos de datos como una forma de comparar resultados en problemas similares para diferentes modelos de lenguaje.

A continuación se muestran imágenes de gráficos que muestran los resultados del uso de Chain of Thought Prompting en LaMDA.

Cadena de impulsos de pensamiento y LaMDA

Los resultados de escalar LaMDA en el conjunto de datos MultiArith muestran que resultó en una mejora modesta. Pero LaMDA puntúa significativamente más alto cuando se escala con Chain of Thought Prompting.

Los resultados en el conjunto de datos GSM8K muestran una mejora modesta.

Es una historia diferente con el modelo de lenguaje PaLM.

Cadena de impulsos de pensamiento y PaLM

Como se puede ver en el gráfico anterior, las ganancias de escalar PaLM con Chain of Thought Prompting son enormes, y son enormes para ambos conjuntos de datos (MultiArith y GSM8K).

Los investigadores llaman a los resultados notables y un nuevo estado del arte:

“En el conjunto de datos GSM8K de problemas matemáticos, PaLM muestra un rendimiento notable cuando se escala a parámetros 540B.

…combinar la cadena de indicaciones de pensamiento con el modelo PaLM de parámetros 540B conduce a un nuevo rendimiento de vanguardia del 58 %, superando el estado del arte anterior del 55 % logrado mediante el ajuste fino de GPT-3 175B en un entrenamiento grande establecer y luego clasificar las posibles soluciones a través de un verificador especialmente capacitado.

Además, el trabajo de seguimiento sobre la autoconsistencia muestra que el rendimiento de la cadena de mensajes de pensamiento se puede mejorar aún más si se obtiene el voto mayoritario de un amplio conjunto de procesos de razonamiento generados, lo que da como resultado una precisión del 74 % en GSM8K”.

Conclusiones

La conclusión de un trabajo de investigación es una de las partes más importantes para verificar si la investigación avanza en el estado del arte o es un callejón sin salida o necesita más investigación.

La sección de conclusión del trabajo de investigación de Google tiene una nota muy positiva.

Nota:

“Hemos explorado las indicaciones de la cadena de pensamiento como un método simple y ampliamente aplicable para mejorar el razonamiento en los modelos de lenguaje.

A través de experimentos sobre razonamiento aritmético, simbólico y de sentido común, encontramos que la cadena de procesamiento del pensamiento es una propiedad emergente de la escala del modelo que permite que los modelos de lenguaje lo suficientemente grandes realicen tareas de razonamiento que, de otro modo, tendrían curvas de escala planas.

Es de esperar que ampliar la gama de tareas de razonamiento que pueden realizar los modelos de lenguaje inspire más trabajo sobre enfoques de razonamiento basados ​​en el lenguaje”.

Lo que eso significa es que Chain of Thought Prompting puede tener el potencial de proporcionar a Google la capacidad de mejorar significativamente sus diversos modelos de lenguaje, lo que a su vez puede conducir a mejoras significativas en el tipo de cosas que Google puede hacer.

Citas

Lea el artículo sobre IA de Google

Los modelos de lenguaje realizan el razonamiento a través de la cadena de pensamiento

Descargue y lea el artículo de investigación

La cadena de impulsos de pensamiento provoca el razonamiento en modelos de lenguaje grande (PDF)





Consultar el artículo en la publicación original

La cadena de indicaciones de pensamiento de Google puede impulsar los mejores algoritmos actuales