Google LIMoE: un paso hacia el objetivo de una IA única


Google anunció una nueva tecnología llamada LIMoE que, según dice, representa un paso para alcanzar el objetivo de Google de una arquitectura de inteligencia artificial llamada Pathways.

Pathways es una arquitectura de IA que es un modelo único que puede aprender a realizar múltiples tareas que actualmente se realizan mediante el ocupación de múltiples algoritmos.

LIMoE es un acrónimo que significa Aprendizaje de múltiples modalidades con un modelo de mezcla escasa de expertos. Es un modelo que procesa la visión y el texto juntos.

Si bien hay otras arquitecturas que hacen cosas similares, el avance está en la forma en que el nuevo modelo realiza estas tareas, utilizando una técnica de red neuronal llamada Sparse Model.

El modelo disperso se describe en un artículo de investigación de 2017 que introdujo el enfoque de la capa Mixture-of-Experts (MoE), en un artículo de investigación titulado, Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente cerrada.

El modelo disperso se diferencia de los modelos «densos» en que, en lugar de dedicar cada parte del modelo a realizar una tarea, el modelo disperso asigna la tarea a varios «expertos» que se especializan en una parte de la tarea.

Lo que esto hace es reducir el costo computacional, haciendo que el modelo sea más eficiente.

Entonces, de manera similar a cómo un cerebro ve a un perro y sabe que es un perro, que es un pug y que el pug muestra una capa de color leonado plateado, este modelo también puede ver una imagen y realizar la tarea de manera similar, asignando computacional tareas a diferentes expertos que se especializan en la tarea de reconocer a un perro, su raza, su color, etc.

El modelo LIMoE enruta los problemas a los «expertos» que se especializan en una tarea en particular, logrando resultados similares o mejores que los enfoques actuales para hallar problemas.

Una característica interesante del modelo es cómo algunos de los expertos se especializan principalmente en el procesamiento de imágenes, otros se especializan principalmente en el procesamiento de texto y algunos expertos se especializan en hacer ambas cosas.

La descripción de Google sobre cómo funciona LIMoE muestra cómo hay un experto en ojos, otro en ruedas, un experto en texturas rayadas, texturas sólidas, palabras, manijas de puertas, alimentos y frutas, mar y cielo, y un experto en imágenes de plantas.

El anuncio sobre el nuevo algoritmo describe a estos expertos:

“También hay algunos patrones cualitativos claros entre los expertos en imágenes; por ejemplo, en la mayoría de los modelos LIMoE, hay un experto que procesa todos los parches de imágenes que contienen texto. …un experto procesa fauna y vegetación, y otro procesa manos humanas”.

Los expertos que se especializan en diferentes partes de los problemas brindan la capacidad de escalar y realizar con precisión muchas tareas diferentes pero a un costo computacional más bajo.

El trabajo de investigación resume sus hallazgos:

  • “Proponemos LIMoE, la primera mezcla multimodal a gran escala de modelos expertos.
  • Demostramos en detalle cómo los enfoques anteriores para regularizar la mezcla de modelos de expertos se quedan cortos para el aprendizaje multimodal, y proponemos un nuevo esquema de regularización basado en la entropía para estabilizar la formación.
  • Mostramos que LIMoE se generaliza a través de escalas de arquitectura, con mejoras relativas en la precisión de ImageNet de disparo cero que van del 7 % al 13 % en comparación con los modelos densos equivalentes.
  • Ampliado aún más, LIMoE-H/14 logra una precisión de ImageNet de disparo cero del 84,1 %, comparable a los modelos contrastivos SOTA con redes troncales por modalidad y preentrenamiento”.

Partidos Estado del Arte

Hay muchos trabajos de investigación publicados cada mes. Pero solo unos pocos están destacados por Google.

Por lo general, Google destaca la investigación porque logra algo nuevo, además de lograr un estado del arte.

LIMoE logra esta hazaña de lograr resultados comparables a los mejores algoritmos de hoy, pero lo hace de manera más eficiente.

Los investigadores destacan esta ventaja:

“En la clasificación de imágenes de disparo cero, LIMoE supera tanto a los modelos multimodales densos comparables como a los enfoques de dos torres.

El LIMoE más grande logra una precisión de ImageNet de disparo cero del 84,1 %, comparable con los modelos de última generación más costosos.

Sparsity permite que LIMoE se amplíe con gracia y aprenda a manipular entradas muy diferentes, abordando la tensión entre ser un generalista experto en todos los oficios y un especialista maestro en uno”.

Los resultados exitosos de LIMoE llevaron a los investigadores a observar que LIMoE podría ser un camino a seguir para lograr un modelo generalista multimodal.

Los investigadores observaron:

“Creemos que la capacidad de construir un modelo generalista con componentes especializados, que pueden decidir cómo deben interactuar las diferentes modalidades o tareas, será clave para crear modelos multitarea verdaderamente multimodales que sobresalgan en todo lo que hacen.

LIMoE es un primer paso prometedor en esa dirección”.

Deficiencias potenciales, sesgos y otros problemas éticos

Hay deficiencias en esta arquitectura que no se analizan en el anuncio de Google, pero se mencionan en el propio trabajo de investigación.

El documento de investigación señala que, al igual que otros modelos a gran escala, LIMoE también puede introducir sesgos en los resultados.

Los investigadores afirman que aún no han abordado «explícitamente» los problemas inherentes a los modelos a gran escala.

Escriben:

«Los daños potenciales de los modelos a gran escala…, los modelos contrastivos… y los datos multimodales a escala web… también se trasladan aquí, ya que LIMoE no los aborda explícitamente».

La declaración anterior hace referencia (en un enlace de nota al pie) a un trabajo de investigación de 2021 llamado, Sobre las oportunidades y riesgos de los modelos de fundación (PDF aquí).

Ese documento de investigación de 2021 advierte cómo las tecnologías emergentes de IA pueden ocasionar un impacto social negativo como:

“… inequidad, uso indebido, impacto económico y ambiental, consideraciones legales y éticas”.

De acuerdo con el artículo citado, los problemas éticos también pueden surgir de la tendencia hacia la homogeneización de las tareas, que luego puede introducir un punto de falla que luego se reproduce en otras tareas que siguen aguas debajo.

El documento de investigación de advertencia establece:

“La importancia de los modelos de base se puede resumir en dos palabras: emergencia y homogeneización.

Emergencia significa que el comportamiento de un sistema se induce implícitamente en lugar de construirse explícitamente; es tanto la fuente del entusiasmo científico como la ansiedad por las consecuencias imprevistas.

La homogeneización indica la consolidación de metodologías para construir sistemas de aprendizaje automático en una amplia gama de aplicaciones; proporciona un fuerte apalancamiento para muchas tareas, pero también crea puntos únicos de falla”.

Un área de precaución es la IA relacionada con la visión.

El documento de 2021 establece que la ubicuidad de las cámaras significa que cualquier avance en la IA relacionado con la visión podría conllevar un riesgo concomitante de que la tecnología se aplique de manera imprevista, lo que puede tener un «impacto disruptivo», incluso con respecto a la privacidad y la observación.

Otra advertencia de precaución relacionada con los avances en la IA relacionada con la visión son los problemas con la precisión y el sesgo.

Ellos notan:

“Existe una historia bien documentada de sesgo aprendido en los modelos de visión por computadora, lo que resulta en precisiones más bajas y errores correlacionados para grupos subrepresentados, con el consiguiente despliegue inapropiado y prematuro en algunos entornos del mundo real”.

El resto del documento documenta cómo las tecnologías de IA pueden aprender los sesgos existentes y perpetuar las desigualdades.

“Los modelos básicos tienen el potencial de generar resultados inequitativos: el trato injusto de las personas, especialmente debido a la distribución desigual a lo largo de las líneas que agravan la discriminación histórica…. Al igual que cualquier sistema de IA, los modelos básicos pueden agravar las desigualdades existentes al producir resultados injustos, afianzar los sistemas de poder y distribuir de manera desproporcionada las consecuencias negativas de la tecnología entre quienes ya están marginados…”.

Los investigadores de LIMoE señalaron que este modelo en particular puede evitar algunos de los sesgos contra los grupos subrepresentados debido a la naturaleza de cómo los expertos se especializan en ciertas cosas.

Este tipo de resultados negativos no son teorías, son realidades y ya han impactado negativamente vidas en aplicaciones del mundo real como sesgos injustos basados ​​en la raza introducidos por los algoritmos de contratación de ocupación.

Los autores del artículo de LIMoE reconocen esas posibles deficiencias en un breve párrafo que sirve como advertencia.

Pero también señalan que puede haber un potencial para tocar algunos de los sesgos con este nuevo enfoque.

Ellos escribieron:

«… la capacidad de escalar modelos con expertos que pueden especializarse profundamente puede resultar en un mejor desempeño en grupos subrepresentados».

Por último, un atributo clave de esta nueva tecnología que debe tenerse en cuenta es que no se establece un uso explícito para ella.

Es simplemente una tecnología que puede procesar imágenes y texto de manera eficiente.

Cómo se puede aplicar, si alguna vez se aplica en esta forma o en una forma futura, nunca se aborda.

Y ese es un factor importante que se plantea en el documento de advertencia (Oportunidades y riesgos de los modelos de fundación)llama la atención porque los investigadores crean capacidades para la IA sin tener en cuenta cómo se pueden usar y el impacto que pueden tener en cuestiones como la privacidad y la seguridad.

“Los modelos de fundación son activos intermediarios sin un propósito específico antes de ser adaptados; comprender sus daños requiere razonar sobre sus propiedades y el papel que desempeñan en la construcción de modelos específicos de tareas”.

Todas esas advertencias se omiten en el artículo del anuncio de Google, pero se mencionan en la versión PDF del documento de investigación.

Pathways Arquitectura de IA y LIMoE

Texto, imágenes, datos de audio se denominan modalidades, diferentes tipos de datos o especialización de tareas, por así decirlo. Las modalidades también pueden significar lenguaje hablado y símbolos.

Entonces, cuando ve la frase «multimodal» o «modalidades» en artículos científicos y trabajos de investigación, generalmente se refieren a diferentes tipos de datos.

El objetivo final de Google para la IA es lo que llama la Arquitectura de IA de Próxima Generación de Pathways.

Pathways representa un alejamiento de los modelos de aprendizaje automático que hacen una cosa realmente bien (por lo tanto, requieren miles de ellos) a un modelo único que hace todo realmente bien.

Pathways (y LIMoE) es un enfoque multimodal para hallar problemas.

Es descrito así:

“La gente confía en múltiples sentidos para percibir el mundo. Eso es muy diferente de cómo los sistemas de inteligencia artificial contemporáneos digieren la información.

La mayoría de los modelos actuales procesan solo una modalidad de información a la vez. Pueden tomar texto, imágenes o voz, pero normalmente no los tres a la vez.

Pathways podría habilitar modelos multimodales que abarquen la comprensión visual, auditiva y del lenguaje simultáneamente”.

Lo que hace que LIMoE sea importante es que es una arquitectura multimodal a la que los investigadores se refieren como un «…un paso importante hacia la visión de Pathways…

Los investigadores describen a LIMoE como “paso” porque hay más trabajo por hacer, que incluye explorar cómo este enfoque puede funcionar con modalidades más allá de solo imágenes y texto.

Este documento de investigación y el artículo de resumen que lo acompaña muestran en qué dirección va la investigación de IA de Google y cómo está llegando allí.


Citas

Lea el artículo de resumen de Google sobre LIMoE

LIMoE: aprendizaje de múltiples modalidades con un modelo de mezcla escasa de expertos

Descargue y lea el documento de investigación de LIMoE

Aprendizaje contrastivo multimodal con LIMoE: la mezcla lenguaje-imagen de expertos (PDF)

Imagen de Shutterstock/SvetaZi





Consultar el artículo en la publicación original

Google LIMoE: un paso hacia el objetivo de una IA única