ChatGPT da un paso adelante con nuevas capacidades de voz e imagen

OpenAI ha comenzado a implementar nuevas funciones de voz e imagen para su popular chatbot impulsado por IA, ChatGPT.

Estos nuevas capacidades le permite tener conversaciones más naturales con ChatGPT hablándole y mostrándole imágenes.

Esto permite más formas de utilizar ChatGPT en las rutinas diarias. Por ejemplo, mientras viaja, puede enviar a ChatGPT una foto de un punto de referencia y entablar una conversación en tiempo real sobre él.

Del mismo modo, en casa puedes tomar fotografías del contenido de tu refrigerador y discutir ideas de comidas o solicitar una receta paso a paso.

Durante las próximas semanas, OpenAI implementará estas funciones para los usuarios Plus y Enterprise. La capacidad de voz estará disponible en aplicaciones móviles, mientras que la funcionalidad de imagen será accesible en todas las plataformas.

La entrada de voz permite conversaciones bidireccionales

La nueva función de voz le permite hablar con ChatGPT, que ahora puede responder de forma audible en una de las cinco voces sintetizadas.

Puede registrarse a través de la configuración de las aplicaciones móviles de iOS y Android para habilitar la voz.

Según OpenAI, la capacidad de voz utiliza un modelo avanzado de conversión de texto a voz entrenado con muestras de actores de voz. Para el reconocimiento de voz, aprovecha Whisper, el sistema de voz de código abierto de OpenAI.

Hablar de imágenes proporciona un contexto visual

Ahora puede mostrar a ChatGPT una o más imágenes para proporcionar contexto visual y centrar la conversación.

Por ejemplo, compartir una foto de un dispositivo roto podría ayudar a ChatGPT a diagnosticar problemas y sugerir soluciones. En dispositivos móviles, una herramienta de dibujo permite rodear o señalar partes específicas de una imagen.

Las características de la imagen utilizan una versión multimodal de los modelos GPT-3.5 y GPT-4 ajustada para razonar sobre las entradas visuales. OpenAI probó exhaustivamente las capacidades de la imagen para detectar riesgos de seguridad antes de implementarla.

Implementación gradual centrada en la seguridad

OpenAI señaló que está adoptando un enfoque gradual para implementar estas funciones.

La nueva tecnología de voz abre posibilidades creativas, pero también riesgos como la suplantación de personajes públicos. Para calmar los riesgos, la voz se limita actualmente al chat conversacional.

Para las imágenes, OpenAI dijo que ha limitado la capacidad de ChatGPT para analizar sin rodeos a las personas en las fotografías y desaconsejar casos de uso de alto riesgo sin verificación.

En resumen

Las nuevas capacidades de voz e imagen de ChatGPT ofrecen a los usuarios una forma más natural de interactuar con el sistema de inteligencia artificial.

Sin embargo, OpenAI está adoptando un enfoque mesurado para implementarlos, limitando el entrada inicial y la funcionalidad debido a riesgos potenciales.

A medida que estas funciones se amplían, tenga en cuenta las limitaciones de ChatGPT y evite aplicaciones de alto riesgo sin verificación.

Imagen de portada: Ahmed_Rizq/Shutterstock

Consultar el artículo en la publicación original

ChatGPT da un paso adelante con nuevas capacidades de voz e imagen

La entrada de voz permite conversaciones bidireccionales

Hablar de imágenes proporciona un contexto visual

Implementación gradual centrada en la seguridad

En resumen

Comparte esto:

También te puede interesar

Google desconecta el experimento «Notas sobre la búsqueda»

Google presenta los dominios .Day

Las conversaciones de Apple con Bing y DuckDuckGo se revelan en el caso antimonopolio de Google