En mayo de 2024, OpenAI introdujo su innovador modelo de inteligencia artificial, GPT-4o, marcando un antes y un después en la evolución de los asistentes virtuales. Esta nueva versión multimodal no solo mejora la capacidad de análisis de texto, sino que también integra entradas de visión y audio, lo que la convierte en una herramienta mucho más versátil y natural para la interacción con los usuarios. Tras meses de pruebas y varios retrasos, OpenAI finalmente ha lanzado una de sus características más esperadas: el modo de voz.
El modo de voz avanzado (AVM) es una de las funcionalidades más destacadas del GPT-4o, permitiendo una interacción mucho más fluida y cercana a una conversación humana real. Esta nueva capacidad ofrece mejoras significativas en comparación con las versiones anteriores, tanto en velocidad como en fluidez, y optimiza el reconocimiento de acentos en diferentes idiomas, lo que expande su aplicabilidad a nivel global.
Sin embargo, esta avanzada tecnología no estará disponible para todos. Inicialmente, OpenAI ha decidido restringir el acceso al modo de voz avanzado a los suscriptores de pago de sus niveles Plus y Teams, con un despliegue gradual para usuarios de Enterprise y Edu. Aunque la compañía no ha especificado las fechas exactas, se espera que esta función sea accesible en más regiones en los próximos meses.
Funcionamiento del modo de voz avanzado
El AVM se distingue de las versiones anteriores de ChatGPT principalmente por su capacidad de escucha continua, lo que permite una conversación más dinámica. A diferencia del modo de voz anterior, en el que el sistema alternaba entre escuchar y hablar, el AVM posibilita que los usuarios interrumpan las respuestas o hagan ajustes en tiempo real, replicando la interacción natural que se tendría con una persona.
Además, OpenAI ha introducido un diseño renovado para mejorar la experiencia del usuario. Ahora, en lugar de los tradicionales puntos animados, se presenta una esfera azul que indica cuándo el sistema está escuchando. Este detalle, aunque aparentemente menor, mejora la claridad visual y contribuye a una experiencia de usuario más sofisticada.
Nuevas voces: Más personalización para el usuario
Uno de los atractivos del modo de voz avanzado es la posibilidad de elegir entre cinco nuevas voces: Arbor, Maple, Sol, Spruce y Vale, cada una con características distintivas que permiten adaptar la experiencia a las preferencias del usuario. Este nivel de personalización refuerza el compromiso de OpenAI de hacer que la interacción con su IA sea lo más cercana posible a la comunicación humana.
No obstante, una voz que había generado mucha expectativa, la de Sky, no ha sido incluida en esta versión. Tras la demostración de primavera, la similitud de esta voz con la de la actriz Scarlett Johansson provocó una amenaza de demanda por parte de la actriz, lo que obligó a OpenAI a retirarla de su catálogo de opciones.
Un Despliegue Limitado, pero en Expansión
A pesar de las emocionantes novedades del AVM, OpenAI ha limitado su disponibilidad a ciertas regiones. Mientras que los usuarios en países como México ya pueden acceder a las suscripciones de Plus, Teams y Enterprise, el modo de voz avanzado no estará disponible en varios países de la Unión Europea, el Reino Unido, Suiza, y otras regiones. Aún no se ha anunciado un cronograma oficial sobre cuándo esta funcionalidad estará completamente disponible a nivel global.
En resumen, el modo de voz avanzado de GPT-4o representa un avance significativo en la tecnología de inteligencia artificial conversacional. Aunque su disponibilidad inicial es limitada a ciertos usuarios de pago, su capacidad para mantener conversaciones más naturales, su personalización mediante diferentes voces y sus mejoras de rendimiento sugieren que estamos ante un futuro en el que interactuar con la inteligencia artificial será tan natural como hablar con otra persona.
Comments