Camino a la búsqueda de próxima generación


Google anunció un gran avance en el esfuerzo por crear una arquitectura de IA que pueda manipular millones de tareas diferentes, incluido el aprendizaje y el razonamiento complejos. El nuevo sistema se llama Pathways Language Model, conocido como PaLM.

PaLM es capaz de superar el estado actual del estado actual de la IA, así como vencer a los humanos en las pruebas de lenguaje y razonamiento.

Pero los investigadores también señalan que no pueden librarse de las limitaciones inherentes a los modelos de lenguajes a gran escala que, sin querer, pueden dar lugar a resultados éticos negativos.

Información de contexto

Las siguientes secciones son información básica que aclara de qué se trata este algoritmo.

Aprendizaje de pocos disparos

El aprendizaje de pocos disparos es la siguiente etapa del aprendizaje que va más allá del aprendizaje profundo.

El investigador de Google Brain, Hugo Larochelle (@hugo_larochelle) dijo en una presentación titulada, Generalizar a partir de unos pocos ejemplos con metaaprendizaje (video) explicó que con el aprendizaje profundo, el problema es que tenían que recopilar una gran cantidad de datos que requerían una cantidad significativa de trabajo humano.

Señaló que el aprendizaje profundo probablemente no sea el camino hacia una IA que pueda hallar muchas tareas porque con el aprendizaje profundo, cada tarea requiere millones de ejemplos de los cuales aprender para cada habilidad que aprende una IA.

Larochelle explica:

“…la idea es que vamos a tratar de atacar este problema muy sin rodeos, este problema de aprendizaje de pocos disparos, que es este problema de generalizar a partir de pequeñas cantidades de datos.

…la idea principal de lo que presentaré es que, en lugar de tratar de definir cuál es ese algoritmo de aprendizaje mediante N y usar nuestra intuición sobre cuál es el algoritmo correcto para realizar un aprendizaje de pocos disparos, en realidad intente aprender ese algoritmo en una forma de extremo a extremo.

Y es por eso que lo llamamos aprender a aprender o me gusta llamarlo, metaaprendizaje”.

El objetivo con el enfoque de pocos disparos es aproximar cómo los humanos aprenden diferentes cosas y pueden aplicar los diferentes conocimientos juntos para hallar nuevos problemas que nunca antes se habían encontrado.

La ventaja entonces es una máquina que puede aprovechar todo el conocimiento que tiene para hallar nuevos problemas.

En el caso de PaLM, un ejemplo de esta capacidad es su habilidad para explicar una broma que nunca antes había encontrado.

Caminos IA

En octubre de 2021, Google publicó un artículo en el que se establecían los objetivos de una nueva arquitectura de IA llamada Pathways.

Pathways representó un nuevo capítulo en el progreso continuo en el desarrollo de sistemas de IA.

El enfoque habitual era crear algoritmos entrenados para hacer muy bien cosas específicas.

El enfoque de Pathways es crear un único modelo de IA que pueda hallar todos los problemas aprendiendo cómo resolverlos, evitando así la forma menos eficiente de entrenar miles de algoritmos para completar miles de tareas diferentes.

Según el documento Pathways:

“En cambio, nos gustaría entrenar un modelo que no solo pueda manipular muchas tareas separadas, sino que también aproveche y combine sus habilidades existentes para aprender nuevas tareas de manera más rápida y efectiva.

De esa manera, lo que un modelo aprende al entrenarse en una tarea, por ejemplo, aprender cómo las imágenes aéreas pueden predecir la elevación de un paisaje, podría ayudarlo a aprender otra tarea, por ejemplo, predecir cómo fluirán las aguas de la inundación a través de ese terreno”.

Pathways definió el camino a seguir de Google para llevar la IA al siguiente nivel para cerrar la brecha entre el aprendizaje automático y el aprendizaje humano.

El modelo más nuevo de Google, llamado Pathways Language Model (PaLM), es el siguiente camino y, según este nuevo trabajo de investigación, PaLM representa un progreso significativo en el campo de la IA.

Lo que hace que Google PaLM sea notable

PaLM escala el proceso de aprendizaje de pocas tomas.

Según el trabajo de investigación:

“Se ha demostrado que los modelos de lenguaje grandes logran un rendimiento notable en una variedad de tareas de lenguaje natural utilizando el aprendizaje de pocos disparos, lo que reduce drásticamente la cantidad de ejemplos de capacitación específicos de tareas necesarios para adaptar el modelo a una aplicación en particular.

Para mejorar nuestra comprensión del impacto de la escala en el aprendizaje de pocos disparos, entrenamos un modelo de lenguaje Transformer de 540 mil millones de parámetros, densamente activado, que llamamos Pathways Language Model (PaLM)”.

Hay muchos trabajos de investigación publicados que describen algoritmos que no funcionan mejor que el estado actual del arte o solo logran una mejora incremental.

Ese no es el caso con PaLM. Los investigadores afirman mejoras significativas sobre los mejores modelos actuales e incluso superan los puntos de referencia humanos.

Ese nivel de éxito es lo que hace que este nuevo algoritmo sea notable.

Los investigadores escriben:

“Demostramos los beneficios continuos de escalar al lograr resultados de aprendizaje de última generación en cientos de puntos de referencia de comprensión y generación de idiomas.

En varias de estas tareas, PaLM 540B logra un rendimiento innovador, superando el estado del arte ajustado con precisión en un conjunto de tareas de razonamiento de varios pasos y superando el rendimiento humano promedio en el punto de referencia BIG-bench lanzado recientemente.

Una cantidad significativa de tareas de BIG-bench mostraron mejoras discontinuas con respecto a la escala del modelo, lo que significa que el rendimiento aumentó considerablemente a medida que escalamos a nuestro modelo más grande”.

PaLM supera el estado del arte en las tareas de procesamiento del lenguaje natural en inglés y eso hace que PaLM sea importante y notable.

En un punto de referencia colaborativo llamado BIG-bench que consta de más de 150 tareas (relacionadas con el razonamiento, la traducción, la respuesta a preguntas), PaLM superó el estado del arte, pero hubo áreas en las que no lo hizo tan bien.

Vale la pena señalar que el desempeño humano superó a PaLM en el 35 % de las tareas, particularmente en tareas relacionadas con las matemáticas (consulte la sección 6.2 BIG-bench del trabajo de investigación, página 17).

PaLM fue mejor traduciendo otro idioma al inglés que traduciendo del inglés a otros idiomas. Los investigadores afirmaron que este es un problema común que podría resolverse priorizando más datos multilingües.

Sin embargo, PaLM superó con creces a otros modelos de lenguaje y humanos en todos los ámbitos.

Habilidad de razonar

De particular interés fue su desempeño en tareas de razonamiento aritmético y de sentido común.

Ejemplo de una tarea aritmética:

Pregunta:
Roger tiene 5 pelotas de tenis. Compra 2 latas más de pelotas de tenis. Cada lata tiene 3 pelotas de tenis. ¿Cuántas pelotas de tenis tiene ahora?

Responder:
La respuesta es 11.

Ejemplo de razonamiento de sentido común:

Pregunta:
Sean tenía prisa por llegar a casa, pero el semáforo se puso amarillo y se vio obligado a hacer ¿qué?
Opciones de respuesta: (a) tomar tiempo (b) perder el tiempo (c) ir despacio (d) océano (e) reducir la velocidad

Responder:
La respuesta es (e) reducir la velocidad.

Generando Explicaciones

Otro ejemplo extraordinario de lo avanzado que es PaLM en las pruebas de generación de explicaciones.

Así es como lo explica el trabajo de investigación:

“El objetivo de esta sección es mostrar las capacidades de PaLM con respecto a la generación de lenguaje explicativo, para indicaciones que requieren una combinación compleja de encadenamiento de inferencias lógicas, conocimiento del mundo, comprensión del lenguaje abstracto y comprensión del lenguaje lexicográfico (por ejemplo, juegos de palabras)”.

Explicaciones de chistes

Aquí hay un ejemplo del modelo de lenguaje que explica un chiste:

Broma:
Iba a volar para visitar a mi familia el 6 de abril. Mi mamá dijo: «¡Oh, genial, la lectura de poesía de tu padrastro es esa noche!»

Así que ahora volaré el 7 de abril.

Explicación del modelo:
El chiste es que la madre del hablante está tratando de que vayan a la lectura de poesía de su padrastro, pero el hablante no quiere ir, por lo que están cambiando su vuelo al día siguiente de la lectura de poesía.

Encadenamiento de inferencia

Aquí hay un ejemplo de encadenamiento de inferencias, donde varios conceptos y entidades deben asociarse y considerarse correctamente para crear una respuesta.

Aporte:
Guido estaba escribiendo un programa en Python. Se sigue confundiendo con el alcance variable y buscándolo en StackOverflow.

¿Es posible que el Guido en el aviso se refiera a Guido van Rossum?

Salida del modelo:
Guido van Rossum es el creador de Python. No necesitaría buscar el alcance de la variable en StackOverflow. La respuesta es no».»

Aquí hay un ejemplo más:

Aporte:
Jennifer miró por la ventana y vio una nube muy fría debajo de ella. Se desabrocha el cinturón de seguridad y se dirige al baño. ¿Jennifer probablemente viaja a más de 300 millas por hora en relación con la Tierra?

Salida del modelo:
300 millas por hora son aproximadamente 480 km/h. Se trata de la velocidad de un avión comercial. Las nubes suelen estar debajo de los aviones, por lo que probablemente Jennifer esté en un avión.

La respuesta es sí».»

¿Motor de búsqueda de próxima generación?

El ejemplo anterior de la capacidad de PaLM para el razonamiento complejo demuestra cómo un motor de búsqueda de próxima generación puede responder respuestas complejas utilizando el conocimiento de Internet y otras fuentes.

Lograr una arquitectura de IA que pueda producir respuestas que reflejen el mundo que nos rodea es uno de los objetivos declarados de Google Pathways y PaLM es un camino en esa dirección.

Sin embargo, los autores de la investigación enfatizaron que PaLM no es la última palabra sobre IA y búsqueda. Fueron explícitos al afirmar que PaLM es un primer camino hacia el próximo tipo de motor de búsqueda que imagina Pathways.

Antes de continuar, hay dos palabras, jerga, por así decirlo, que es importante comprender para entender de qué se trata PaLM.

  • Modalidades
  • Generalización

La palabra «modalidades” es una referencia a cómo se experimentan las cosas o el estado en que existen, como el texto que se lee, las imágenes que se ven, las cosas que se escuchan.

La palabra «generalización” en el contexto del aprendizaje automático se trata de la capacidad de un modelo de lenguaje para hallar tareas en las que no ha sido entrenado previamente.

Los investigadores señalaron:

“PaLM es solo el primer camino en nuestra visión para establecer Pathways como el futuro de la escalabilidad de ML en Google y más allá.

Creemos que PaLM demuestra una base sólida en nuestro objetivo final de desarrollar un sistema modularizado a gran escala que tendrá amplias capacidades de generalización en múltiples modalidades”.

Riesgos del mundo real y consideraciones éticas

Algo diferente de este trabajo de investigación es que los investigadores advierten sobre consideraciones éticas.

Afirman que los modelos de lenguaje a gran escala entrenados en datos web absorben muchos de los estereotipos «tóxicos» y las disparidades sociales que se difunden en la web y afirman que PaLM no es resistente a esas influencias no deseadas.

El trabajo de investigación cita un trabajo de investigación de 2021 que explora cómo los modelos de lenguaje a gran escala pueden promover el siguiente daño:

  1. Discriminación, Exclusión y Toxicidad
  2. Peligros de la información
  3. La desinformación daña
  4. Usos maliciosos
  5. Daños de la interacción humano-computadora
  6. Automatización, entrada y daños ambientales

Por último, los investigadores notaron que PaLM refleja estereotipos sociales tóxicos y deja en claro que filtrar estos sesgos es un desafío.

Los investigadores de PaLM explican:

“Nuestro análisis revela que nuestros datos de entrenamiento y, en consecuencia, PaLM, reflejan varios estereotipos sociales y asociaciones de toxicidad en torno a los términos de identidad.

Sin embargo, eliminar estas asociaciones no es trivial… El trabajo futuro debería buscar tocar de manera efectiva tales sesgos indeseables en los datos y su influencia en el comportamiento del modelo.

Mientras tanto, cualquier uso real de PaLM para tareas posteriores debe realizar más evaluaciones de equidad contextualizadas para evaluar los daños potenciales e introducir la mitigación y las protecciones adecuadas”.

PaLM se puede ver como un vistazo a cómo será la próxima generación de búsqueda. PaLM hace afirmaciones extraordinarias de superar el estado del arte, pero los investigadores también afirman que aún hay más trabajo por hacer, incluida la búsqueda de una manera de suavizar la propagación dañina de información errónea, estereotipos tóxicos y otros resultados no deseados.

Citación

Lea el artículo del blog de IA de Google sobre PaLM

Pathways Language Model (PaLM): Escalado a 540 mil millones de parámetros para un rendimiento innovador

Lea el artículo de investigación de Google sobre PaLM

PaLM: Modelado de lenguaje escalable con Pathways (PDF)





Consultar el artículo en la publicación original

Camino a la búsqueda de próxima generación
× +info?
A %d blogueros les gusta esto: