OpenAI presenta GPT-4o: Su innovador modelo que integra voz, texto e imagen simultáneamente

Ameis Lectores A.C.
13 may 2024
2 Min. de lectura

En un evento en directo realizado este lunes, OpenAI ha revelado su más reciente avance en el campo de la inteligencia artificial: el modelo GPT-4o. Este nuevo modelo, descrito como más "inteligente y rápido" que sus predecesores, se presenta como una evolución significativa en la oferta de OpenAI, dirigida por Sam Altman.

GPT-4o se destaca por ser multimodal de forma nativa, una característica que promete amplificar las capacidades de las aplicaciones basadas en él. Esto significa que el nuevo modelo no solo procesará texto, sino también audio y visión, proporcionando una experiencia más rica y dinámica para los usuarios. Además, estará disponible para todos los usuarios de ChatGPT, incluyendo aquellos que utilizan la versión gratuita.

Mejoras significativas en inteligencia y capacidad

La CTO de OpenAI, Muri Murati, afirmó durante la transmisión que GPT-4o posee una "inteligencia al nivel de GPT-4", pero con mejoras notables en sus capacidades de procesamiento de texto, audio y visión. Un avance destacado es la reducción de la latencia en las respuestas.

Por ejemplo, el modo de voz de ChatGPT, que en versiones anteriores como GPT-3.5 y GPT-4 tenía una latencia promedio de 2,8 y 5,4 segundos respectivamente, ahora opera con un promedio de tan solo 320 milisegundos en GPT-4o. Esta significativa disminución en el tiempo de respuesta promete una interacción más fluida y natural con el modelo.

Interacciones más naturales y humanizadas

Una de las innovaciones más sorprendentes de GPT-4o es su capacidad para interactuar de manera más natural con los usuarios. Durante la demostración en vivo, se mostró cómo el modelo puede mantener conversaciones en tiempo real, responder en diferentes tonos de voz y detectar el estado de ánimo del usuario, enriqueciendo así la experiencia conversacional.

Además, el nuevo modelo permite interrumpir la respuesta del modelo en cualquier momento, emulando una conversación más humana y dinámica. Esta funcionalidad representa un paso adelante en la interacción hombre-máquina, facilitando un diálogo más intuitivo y menos estructurado.

Otra característica notable de GPT-4o es la traducción instantánea. OpenAI ha diseñado esta funcionalidad para que los usuarios puedan simplemente solicitar una traducción en lenguaje natural, sin necesidad de comandos específicos. Por ejemplo, si estamos conversando con una persona que habla italiano, ChatGPT podrá traducir nuestra conversación en tiempo real al español, permitiendo una comunicación fluida y sin barreras idiomáticas.

En términos de capacidades de visión, GPT-4o también introduce mejoras significativas. El modelo es capaz de analizar imágenes y proporcionar información detallada sobre ellas. Desde identificar el modelo de un coche hasta detectar errores en el código de un lenguaje de programación, las posibilidades son vastas y variadas.

Con el lanzamiento de GPT-4o, OpenAI no solo reafirma su liderazgo en el ámbito de la inteligencia artificial, sino que también abre nuevas posibilidades para la interacción y el uso de esta tecnología. La combinación de velocidad, inteligencia y capacidad multimodal de GPT-4o promete revolucionar la forma en que interactuamos con las máquinas, haciendo de cada conversación una experiencia más natural y enriquecedora.

Este nuevo modelo no solo representa un avance técnico, sino también un paso hacia una inteligencia artificial más accesible y útil para todos. Sin duda, GPT-4o marca un hito importante en el camino hacia una IA más avanzada y humana.

CRECIENDO A OTRO NIVEL

OpenAI presenta GPT-4o: Su innovador modelo que integra voz, texto e imagen simultáneamente

Entradas recientes

Comentarios