Inicio
Blog

ChatGPT multimodal, ahora habla escucha y más 2023

ChatGPT multimodal ya puede hablar, escuchar y ver imágenes

OpenAI está a punto de conquistar el mundo, anunciando capacidades multimodales para ChatGPT. Las nuevas capacidades permiten al chatbot ver (entender imágenes), oír (entender el habla) y hablar mientras interactúa con los usuarios.

Los usuarios podrán conversar con ChatGPT de forma similar a como lo hacen con Alexa de Amazon, Siri de Apple o Google Assistant, y pedir al bot que analice y reaccione ante cualquier imagen que suban, como traducir la señalización o identificar objetos cuando se le pregunte en el texto que acompaña a su subida de imágenes.

Solo las aplicaciones móviles ChatGPT de OpenAI para Android e iOS soportarán la entrada de voz. La entrada de imágenes se admitirá en las aplicaciones móviles y en el escritorio.

La versión mejorada de ChatGPT estará disponible para los usuarios de las plataformas móviles Plus y Enterprise en las próximas semanas, y los desarrolladores y otros usuarios tendrán acceso a ella «poco después.»

La actualización multimodal de ChatGPT llega poco después del lanzamiento de DALL-E 3, el sistema de generación de imágenes más avanzado de OpenAI.

Según OpenAI, DALL-E 3 incluye procesamiento de lenguaje natural. Esto permite a los usuarios interactuar con el modelo para mejorar los resultados e integrar ChatGPT para obtener ayuda con la creación de indicaciones de imágenes.

Aquí te muestro las novedades mas relevantes de Chat GPT para este mes de septiembre de 2023

Hablar con ChatGPT:

Hablar con ChatGPT

Con Whisper, los usuarios podrán utilizar su voz para establecer una conversación de ida y vuelta.
La tecnología de texto a voz incluye cinco opciones de voz distintas para las conversaciones, desarrolladas en colaboración con actores dobles profesionales (demo).

ChatGPT ahora puede ver, te escucha y te habla

Entender imágenes con ChatGPT

Las capacidades de razonamiento lingüístico de ChatGPT pueden ahora entender imágenes, fotografías, capturas de pantalla y documentos escritos.
Los usuarios pueden comunicarse con diversas imágenes o utilizar la nueva herramienta de dibujo para guiar al asistente

Las nuevas capacidades permiten al chatbot de chatGPT ver (entender imágenes), oír (entender el habla) y hablar mientras interactúa con los usuarios.

Entender imágenes con ChatGPT

Crear imagenes con ChatGPT Y DALLE-3

Crear imagenes con ChatGPT Y DALLE-3

La integración con #ChatGPT es una nueva función de DALL-E 3. No es necesario que el usuario cree instrucciones detalladas para guiar a DALL-E 3 cuando utilice ChatGPT; basta con solicitar que ChatGPT cree una sugerencia, y el chatbot escribirá un párrafo.

DALLE 3 mejora significativamente respecto a DALLE 2 gracias a ChatGPT, tanto en comprensión como en resultados. Según el sitio web de OpenAI, esto ya está incluido en ChatGPT. En esencia, el chatbot te ayudará a generar ideas y a refinar tus descripciones.
Y a la hora de crear una imagen, sólo tendremos que pedirle a ChatGPT que lo haga por nosotros: el chatbot proporcionará una descripción o «prompt» que luego utilizará DALLE 3 para crear la imagen.

¿Para quienes estará disponible Chat GPT multimodal?

Las funciones de voz e imagen de ChatGPT, al igual que DALLE-3 y otras herramientas de OpenAI, estarán disponibles inicialmente para los usuarios de ChatGPT Plus y Enterprise.

OpenAI tiene la intención de ampliar estas funciones a otros usuarios, incluidos los desarrolladores, en un futuro próximo.

¿Cuando estara disponible Chat GPT multimodal?

Esta versión está prevista para dentro de dos semanas.

A medida que ChatGPT sigue evolucionando y adaptándose a las necesidades de sus usuarios, OpenAI se compromete a proporcionar una experiencia de AI segura y beneficiosa. Estas nuevas capacidades no sólo mejoran la comodidad, sino que también proporcionan nuevas formas de interactuar con la AI, allanando el camino para sistemas de AI más interesantes en el futuro.

Con el apoyo de Microsoft, OpenAI está aprovechando estratégicamente la creciente popularidad de ChatGPT para mantener su liderazgo en IA general, un movimiento crítico dada la creciente competencia de titanes de la industria como Siri de Apple y disruptores emergentes como Bard, Bing AI y otros chatbots impulsados por IA. Será interesante ver cómo responden estos competidores a los avances de OpenAI.