El nuevo modelo GPT-4o de OpenAI permite a las personas interactuar mediante voz o vídeo en el mismo modelo

Heaven32 13/05/2024 Comments

GPT-4 ofrecía capacidades similares, brindando a los usuarios múltiples formas de interactuar con las ofertas de inteligencia artificial de OpenAI. Pero los aisló en modelos separados, lo que generó tiempos de respuesta más prolongados y presumiblemente costos informáticos más altos. GPT-4o ahora ha fusionado esas capacidades en un solo modelo, que Murati llamó “omnimodelo”. Eso significa respuestas más rápidas y transiciones más fluidas entre tareas, dijo.

El resultado, sugiere la demostración de la compañía, es un asistente de conversación muy parecido a Siri o Alexa, pero capaz de responder indicaciones mucho más complejas.

“Estamos mirando el futuro de la interacción entre nosotros y las máquinas”, dijo Murati sobre la demostración. “Creemos que GPT-4o realmente está cambiando ese paradigma hacia el futuro de la colaboración, donde esta interacción se vuelve mucho más natural”.

Barret Zoph y Mark Chen, ambos investigadores de OpenAI, analizaron varias aplicaciones para el nuevo modelo. Lo más impresionante fue su facilidad para conversar en vivo. Podrías interrumpir al modelo durante sus respuestas, y este se detendría, escucharía y ajustaría el rumbo.

OpenAI también mostró la capacidad de cambiar el tono del modelo. Chen le pidió a la modelo que leyera un cuento antes de dormir “sobre robots y el amor”, y rápidamente intervino para exigir una voz más dramática. El modelo se volvió cada vez más teatral hasta que Murati exigió que cambiara rápidamente hacia una voz de robot convincente (en lo que destacó). Si bien, como era de esperar, hubo algunas pausas breves durante la conversación mientras el modelo razonaba qué decir a continuación, se destacó como una conversación de IA con un ritmo notablemente natural.

Leave a Reply Cancel reply