Lo que sabemos hasta ahora


En el E/S de Google En la conferencia de desarrolladores de mayo de 2023, el director ejecutivo, Sundar Pichai, anunció el próximo sistema de inteligencia artificial (IA) de la empresa, Gemini.

El modelo de lenguaje grande (LLM) está siendo desarrollado por la división Google DeepMind (Brain Team + DeepMind). Podría competir con sistemas de inteligencia artificial como ChatGPT de OpenAI y posiblemente superarlos.

Si bien los detalles siguen siendo escasos, esto es lo que podemos recopilar a partir de las últimas entrevistas e informes sobre Google Gemini.

Google Gemini será multimodal

Pichai afirmó que Gemini combina las fortalezas del sistema AlphaGo de DeepMind, conocido por dominar el complejo juego Go, con amplias capacidades de modelado de lenguaje.

Dijo que está diseñado desde cero para ser multimodal, integrando texto, imágenes y otros tipos de datos. Esto podría permitir habilidades conversacionales más naturales.

Pichai también insinuado a capacidades futuras como la memoria y la planificación que podrían permitir tareas que requieran razonamiento.

Gemini puede utilizar herramientas y API

En una actualización de su profesional. biografía Durante el verano, el científico jefe de Google, Jeffrey Dean, dijo que Gemini es uno de los “modelos multimodales de próxima generación” que codirige.

Dijo que utilizará Pathways, la nueva infraestructura de inteligencia artificial de Google, para permitir ampliar la capacitación en diversos conjuntos de datos.

Esto sugiere que Gemini es potencialmente el modelo de lenguaje más grande creado hasta la fecha, probablemente superando el tamaño de GPT-3 con más de 175 mil millones de parámetros.

Vendrá con varios tamaños y capacidades

Detalles adicionales vinieron de Demis Hassabis, director ejecutivo de DeepMind.

En junio, dijo cableado que las técnicas de AlphaGo, como el aprendizaje por refuerzo y la búsqueda de árboles, pueden darle a Gemini nuevas habilidades como el razonamiento y la resolución de problemas.

Hassabis afirmó que Gemini es una “serie de modelos” que estarán disponibles en diferentes tamaños y capacidades.

También mencionó que Gemini puede utilizar la memoria, la verificación de datos con fuentes como la Búsqueda de Google y un aprendizaje por refuerzo mejorado para mejorar la precisión y reducir el contenido alucinado peligroso.

Los primeros resultados de Géminis son prometedores

en septiembre Tiempo En la entrevista, Hassabis reiteró que Gemini apunta a combinar escala e innovación.

Dijo que la incorporación de la planificación y la memoria se encuentra en las primeras etapas exploratorias.

Hassabis también afirmó que Gemini puede emplear métodos de recuperación para generar bloques completos de información, en lugar de generar palabra por palabra, para mejorar la coherencia de los hechos.

Reveló que Gemini se basa en el trabajo multimodal de DeepMind, como el sistema de subtítulos de imágenes Flamingo.

En general, Hassabis dijo que Gemini está mostrando «resultados iniciales muy prometedores».

Chatbots avanzados como asistentes personales universales

En una entrevista con cableadopublicado unos días después, Pichai proporcionó la indicación más inequívoca de cómo Gemini encaja en la hoja de ruta de productos de Google.

Afirmó que los sistemas de IA conversacionales como Bard “no son el estado final”, sino puntos de referencia que conducen a chatbots más avanzados.

Pichai dijo que Gemini y las versiones futuras se convertirán en última instancia en “increíbles asistentes personales universales” integrados en la vida diaria de las personas en áreas como viajes, trabajo y entretenimiento.

Reiteró que Gemini combinará los puntos fuertes del texto y las imágenes, afirmando que los chatbots de hoy “parecerán triviales” en comparación dentro de unos años.

Los competidores están interesados ​​en el desempeño de Géminis

El CEO de OpenAI tuiteó lo que parecía ser una respuesta a un muro de pago.artículo informando que Google Gemini podría superar a GPT-4.

No hubo respuesta oficial a la pregunta de seguimiento de Elon Musk sobre si las cifras proporcionadas por SemiAnalysis son correctas.

Empresas seleccionadas tienen entrada anticipado a Gemini

Más pistas sobre el progreso de Géminis esta semana: El Información informó que Google le dio a un pequeño grupo de desarrolladores fuera de Google entrada temprano a Gemini.

Esto sugiere que Gemini pronto estará listo para una versión beta y la integración en servicios como Google Cloud Vertex AI.

Meta trabaja en LLM para competir con OpenAI

Si bien las noticias sobre Gemini son prometedoras hasta ahora, Google no es la única empresa que, según se informa, está lista para lanzar un nuevo LLM para competir con OpenAI.

De acuerdo con la Wall Street JournalMeta también está trabajando en un modelo de IA que competiría con el modelo GPT que impulsa ChatGPT.

Meta anunció recientemente el lanzamiento de Llama 2, un modelo de IA de código abierto, en asociación con Microsoft. La empresa parece dedicada a crear de forma responsable una IA que sea más accesible.

La cuenta atrás para Google Géminis

Lo que sabemos hasta ahora indica que Gemini podría representar un avance significativo en el procesamiento del lenguaje natural.

La fusión de las últimas investigaciones sobre IA de DeepMind con los vastos recursos computacionales de Google hace que sea arduo exagerar el impacto potencial.

Si Gemini está a la altura de las expectativas, podría impulsar un cambio en la IA interactiva, alineándose con las ambiciones de Google de «llevar la IA de manera responsable a miles de millones de personas».

Las últimas novedades de Meta y Google llegan unos días después de la primera Foro de conocimientos de IAdonde los directores ejecutivos de tecnología se reunieron en privado con una parte del Senado de los Estados Unidos para discutir el futuro de la IA.


Imagen de portada: Fotos VDB/Shutterstock





Consultar el artículo en la publicación original

Lo que sabemos hasta ahora