Google's new Infini-attention and what it may mean for SEO

[ad_1]

Google ha publicado un artículo de investigación sobre una nueva tecnología llamada Infini-attention que le permite procesar grandes cantidades de datos con «contextos infinitamente largos» y al mismo tiempo es capaz de insertarse fácilmente en otros modelos para mejorar enormemente sus capacidades.

Esa última parte debería ser de interés para quienes estén interesados ​​en el algoritmo de Google. Infini-Attention es plug-and-play, lo que significa que es relativamente fácil de insertar en otros modelos, incluidos aquellos que utilizan el algoritmo central de Google. La parte sobre «contextos infinitamente largos» puede tener implicaciones sobre cómo funcionan algunos de los sistemas de búsqueda de Google.

El nombre del trabajo de investigación es: No deje ningún contexto atrás: transformadores de contexto infinitos eficientes con atención infinita

La memoria es computacionalmente costosa para los LLM

Los modelos de lenguajes grandes (LLM) tienen limitaciones en cuanto a la cantidad de datos que pueden procesar a la vez porque la complejidad computacional y el uso de la memoria pueden aumentar significativamente. Infini-Attention le brinda al LLM la capacidad de manipular contextos más largos mientras mantiene la memoria baja y la potencia de procesamiento necesarias.

El artículo de investigación explica:

“La memoria es la piedra angular de la inteligencia, ya que permite realizar cálculos eficientes adaptados a contextos específicos. Sin embargo, los Transformers… y los LLM basados ​​en Transformer… tienen una memoria dependiente del contexto restringida, debido a la naturaleza del mecanismo de atención.

De hecho, escalar los LLM a secuencias más largas (es decir, 1 millón de tokens) es un desafío con las arquitecturas estándar de Transformer y servir modelos de contexto cada vez más largos se vuelve costoso desde el punto de vista financiero”.

Y en otra parte el artículo de investigación explica:

“Los modelos de transformadores actuales tienen una capacidad limitada para procesar secuencias largas debido a los aumentos cuadráticos en los costos computacionales y de memoria. Infini-attention tiene como objetivo abordar este problema de escalabilidad”.

Los investigadores plantearon la hipótesis de que la atención Infini puede escalar para manipular secuencias extremadamente largas con Transformers sin los aumentos habituales en los recursos computacionales y de memoria.

Tres características importantes

Infini-Attention de Google resuelve las deficiencias de los modelos de transformadores al articular tres características que permiten a los LLM basados ​​en transformadores manipular secuencias más largas sin problemas de memoria y utilizar el contexto de datos anteriores en la secuencia, no solo datos cerca del punto actual que se está procesando.

Las características de Infini-Attention

  • Sistema de memoria compresiva
  • Atención lineal a largo plazo
  • Atención local enmascarada

Sistema de memoria compresiva

Infini-Attention utiliza lo que se llama un sistema de memoria compresivo. A medida que se ingresan más datos (como parte de una larga secuencia de datos), el sistema de memoria compresiva comprime parte de la información más antigua para reducir la cantidad de espacio necesario para almacenar los datos.

Atención lineal a largo plazo

Infini-attention también utiliza lo que se llama «mecanismos de atención lineal a largo plazo» que permiten al LLM procesar datos que existen anteriormente en la secuencia de datos que se están procesando, lo que permite retener el contexto. Esto supone una desviación de los LLM estándar basados ​​en transformadores.

Esto es importante para tareas donde el contexto existe en un plano más amplio de datos. Es como poder discutir un libro completo y todos los capítulos y explicar cómo el primer capítulo se relaciona con otro capítulo más cercano al final del libro.

Atención local enmascarada

Además de la atención a largo plazo, Infini-attention también utiliza la llamada atención local enmascarada. Este tipo de atención procesa partes cercanas (localizadas) de los datos de entrada, lo que resulta útil para respuestas que dependen de partes más cercanas de los datos.

Combinar la atención local y a largo plazo ayuda a dar con el problema de que los transformadores se limiten a la cantidad de datos de entrada que pueden recordar y utilizar para el contexto.

Los investigadores explican:

«La atención Infini incorpora una memoria compresiva en el mecanismo de atención básico y construye tanto mecanismos de atención local enmascarada como de atención lineal a largo plazo en un solo bloque Transformer».

Resultados de experimentos y pruebas.

Infini-attention se probó con otros modelos para compararlos en múltiples puntos de referencia que involucran secuencias de entrada largas, como modelado de lenguaje de contexto largo, recuperación de claves de entrada y tareas de resumen de libros. La recuperación de claves de entrada es una prueba en la que el modelo de lenguaje tiene que recuperar datos específicos dentro de una secuencia de texto extremadamente larga.

Lista de las tres pruebas:

  1. Modelado de lenguaje de contexto largo
  2. Prueba de clave de entrada
  3. Resumen del libro

Modelado del lenguaje de contexto largo y puntuación de perplejidad

Los investigadores escriben que la atención Infini superó a los modelos de referencia y que aumentar la duración de la secuencia de entrenamiento trajo mejoras aún mayores en el Puntuación de perplejidad. La puntuación de perplejidad es una métrica que mide el rendimiento del modelo de lenguaje y puntuaciones más bajas indican un mejor rendimiento.

Los investigadores compartieron sus hallazgos:

“Infini-Transformer supera las líneas base de Transformer-XL… y Memorizing Transformers mientras mantiene 114 veces menos parámetros de memoria que el modelo Memorizing Transformer con una memoria KV basada en recuperación vectorial con una longitud de 65K en su novena capa. Infini-Transformer supera a los transformadores de memorización con una longitud de memoria de 65K y logra una relación de compresión de 114x.

Aumentamos aún más la longitud de la secuencia de entrenamiento de 32K a 100K y entrenamos los modelos en el conjunto de datos Arxiv-math. El entrenamiento de 100K redujo aún más la puntuación de perplejidad a 2,21 y 2,20 para los modelos Linear y Linear + Delta”.

Prueba de clave de entrada

La prueba de clave de entrada consiste en ocultar un número aleatorio dentro de una secuencia de texto larga y la tarea es que el modelo debe recuperar el texto oculto. La clave de entrada está oculta cerca del principio, en la mitad o al final del texto extenso. El modelo pudo dar con la prueba de clave de entrada hasta una longitud de 1 millón.

“Un 1B LLM escala naturalmente a una longitud de secuencia de 1M y resuelve la tarea de recuperación de la clave de acceso cuando se le inyecta atención Infini. Infini-Transformers resolvió la tarea de la clave de acceso con una longitud de contexto de hasta 1 M cuando se ajustó en entradas de 5 K de longitud. Informamos la precisión de recuperación a nivel de token para claves de acceso ocultas en una parte diferente (inicio/medio/final) de entradas largas con longitudes de 32K a 1M”.

Prueba de resumen del libro

Infini-attention también se destacó en la prueba de resumen del libro al superar los principales puntos de referencia y alcanzar nuevos niveles de rendimiento de última generación (SOTA).

Los resultados se describen:

“Finalmente, mostramos que un modelo 8B con atención Infini alcanza un nuevo resultado SOTA en una tarea de resumen de un libro de 500 000 de extensión después de un entrenamiento previo continuo y un ajuste fino de la tarea.

…Ampliamos aún más nuestro enfoque mediante el entrenamiento previo continuo de un modelo 8B LLM con una longitud de entrada de 8K para pasos de 30K. Luego afinamos una tarea de resumen de libros, BookSum (Kry´sci´nski et al., 2021), donde el objetivo es generar un resumen del texto completo de un libro.

Nuestro modelo supera los mejores resultados anteriores y logra un nuevo SOTA en BookSum al procesar todo el texto del libro. …Existe una tendencia clara que muestra que al proporcionar más texto como entrada de libros, nuestros Infini-Transformers mejoran su métrica de rendimiento de resumen”.

Implicaciones de la atención infinita para el SEO

Infini-attention es un gran avance en el modelado de atención de largo y corto alcance con mayor eficiencia que los modelos anteriores sin Infini-attention. También admite “preentrenamiento continuo plug-and-play y adaptación al contexto a largo plazo”.
por diseño”, lo que significa que puede integrarse fácilmente en los modelos existentes.

Por último, el “entrenamiento previo continuo y adaptación al contexto a largo plazo” lo hace excepcionalmente útil para escenarios en los que es necesario entrenar constantemente el modelo con nuevos datos. Esta última parte es súper interesante porque puede resultar útil para aplicaciones en la parte posterior de los sistemas de búsqueda de Google, particularmente cuando es necesario poder analizar largas secuencias de información y comprender la relevancia de una parte cerca del comienzo de la secuencia. y otra parte que está más cerca del final.

Otros artículos se centraron en las «entradas infinitamente largas» de las que es capaz este modelo, pero lo que es relevante para el SEO es cómo esa capacidad de manipular entradas enormes y «No dejar contexto atrás» es lo que es relevante para el marketing de búsqueda y cómo algunos de los sistemas de Google podrían Funcionaría si Google adaptara la atención Infini a su algoritmo central.

Lea el trabajo de investigación:

No deje ningún contexto atrás: transformadores de contexto infinitos eficientes con atención infinita

Imagen destacada de Shutterstock/JHVEPhoto

[ad_2]

Consultar el artículo en la publicación original

La nueva atención infinita y SEO de Google