GPT-4o promete una interacción «más natural» entre personas y computadoras

16 mayo 2024, 05:30

Con una serie de tuits, el CEO de OpenAI, Sam Altman, confirmó una gran novedad para el producto estrella de la compañía, GPT, la inteligencia artificial generativa en la que se basa ChatGPT. No se trata de un buscador para competir con Google, como sugerían varios rumores la semana pasada, sino de una nueva versión de este motor de inteligencia artificial, llamado GPT-4o, que se asemeja a un asistente al estilo de Gemini, Alexa o Siri, pero con un tono de voz mucho más sofisticado: cuando habla parece una persona. Ya está disponible en el sitio oficial.

O como lo dijo el propio Altman en su blog, haciéndose cargo de las múltiples referencias en redes sociales a la película Her, una vez que terminó la demo: “el nuevo modo de voz (y video) es la mejor interfaz de computadora que he usado. Parece la IA de las películas; y todavía me sorprende un poco que sea real. Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio.”

Según la compañía, “GPT-4o (“o” de “omni”) es un paso hacia una interacción persona-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen, y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más económico en la API. GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes.”

Otra demo visible en el sitio es la de un asistente manejado por ChatGPT, que hace un reclamo en nombre de su usuario… y dialoga con otra instancia de ChatGPT; es fácil recordar la demo que mostró Google en 2018 (donde una IA reservaba un turno en una peluquería por teléfono, y que generó polémica porque no aclaraba que se trataba de una máquina).

La compañía deberá demostrar cómo evitará que estos sistemas se usen para estafas: tienen la velocidad, ductilidad y capacidad de expresión como para hacerse pasar sin problemas por una persona en el teléfono; incluso si no simulan ser alguien en particular, pueden convencer a cualquiera que esté desprevenido.

OpenAI publicó una serie de videos en YouTube donde muestra más de la capacidad de diálogo que tiene la nueva versión de ChatGPT; aunque el foco está en el audio y el video, esta nueva versión también es capaz de generar textos más sofisticados.

“Nuestro nuevo modelo GPT-4o, es el mejor que hemos hecho. Es inteligente, es rápido, es multimodal nativo y está disponible para todos los usuarios de ChatGPT, ¡incluyendo los del plan gratis! Hasta ahora, los modelos de clase GPT-4 han estado disponibles para gente que paga una suscripción mensual. Esto es importante para nuestra misión; queremos poner herramientas de IA geniales en las manos de todo el mundo”, afirmó Altman, quien aclaró que a nivel de API (es decir, para acceder a GPT-4o desde otra aplicación, como un servicio) el precio bajó a la mitad y es el doble de rápido que GPT-4 turno, con cinco veces más consultas por sesión. Por multimodal, Altman se refiere a un motor que es capaz de generar (y analizar) texto, audio y video al mismo tiempo.

En la presentación general puede verse un ejemplo, en inglés, en que ChatGPT (usando la versión GPT-4o) genera un cuento a pedido de los presentes, y cambia de tono según le piden los usuarios (más humorístico, más tenebroso, etcétera). Muestra la ductilidad que tiene GPT-4o para entender los pedidos de “más o menos emoción” al generar contenido. También aplica a video, para generar código o para hacer traducciones en tiempo real.

Altman se refirió también a la nueva aplicación de escritorio para interactuar con ChatGPT, disponible a partir de hoy, por ahora solo para macOS, un dato no menor para un producto de una compañía en la que Microsoft invirtió 10.000 millones de dólares.

Ricardo Sametband