OpenAI lanzó ChatGPT 4.0: una experiencia multimodal revolucionaria

La nueva versión de ChatGPT no solo entiende texto, sino también imágenes, videos y audio, ofreciendo una experiencia de usuario completa.

OpenAI llegó para desafiar a Gemini, el modelo de Google que fue el primero en mostrar avances en la multimodalidad. Ahora, con ChatGPT, se podrá interactuar hablándole como si fuera una persona. Entre las novedades, ChatGPT puede entender los sentimientos del usuario a partir de los patrones en la tonalidad de su voz.

Por ejemplo, un padre puede estar con su hijo y pedirle con su voz un cuento para dormir, e inclusive especificar la forma en que se lo relate, ya sea con un tono más dramático o tranquilo, entre otras variantes.

Al poder entender la voz natural, ChatGPT también puede actuar como un traductor. Así, si dos personas hablan en lenguajes diferentes, solo necesitan poner el smartphone entre ellos para que vaya traduciendo toda la conversación.

Además, ChatGPT 4.0 entiende imágenes y, si ve al usuario a través de la cámara, podrá interactuar sabiendo incluso su estado de ánimo para dialogar de una forma más fluida. De hecho, esta capacidad también le permite entender dibujos, objetos y hasta ecuaciones matemáticas.

“Hay dos cosas de nuestro anuncio de hoy que quería resaltar. En primer lugar, una parte clave de nuestra misión es poner en manos de las personas herramientas de IA muy capaces de forma gratuita (o a un precio excelente). Estoy muy orgulloso de haber hecho que el mejor modelo del mundo esté disponible de forma gratuita en ChatGPT, sin anuncios ni nada por el estilo”, compartió el CEO de OpenAI en sus redes sociales.

Y añadió: “Nuestra concepción inicial cuando iniciamos OpenAI era que crearíamos IA y la usaríamos para crear todo tipo de beneficios para el mundo. En cambio, ahora parece que crearemos IA y luego otras personas la usarán para crear todo tipo de cosas increíbles de las que todos nos beneficiaremos”.

“En segundo lugar, el nuevo modo de voz (y video) es la mejor interfaz de computadora que he usado. Parece la IA de las películas; y todavía me sorprende un poco que sea real. Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio”.

El ejecutivo también explicó que la compañía ya había notado una “pista de lo que era posible con las interfaces de idiomas”.

“Hablar con una computadora nunca me ha resultado realmente natural; ahora lo hace. A medida que agregamos personalización (opcional), acceso a su información, la capacidad de tomar acciones en su nombre y más, realmente puedo ver un futuro emocionante en el que podremos usar las computadoras para hacer mucho más que nunca”, concluyó.