OpenAI ha integrado Sora , su generador de vídeo e imágenes, en GPT-4o . Inicialmente, el lanzamiento se centra solo en la creación de imágenes y estará disponible para los planes ChatGPT Plus, Pro, Team y Free a partir de este martes. Los usuarios empresariales y educativos tendrán acceso “pronto”. La herramienta también está disponible en Sora . El límite de uso de la versión gratuita “será el mismo que el de DALL-E”, lo que, según las preguntas frecuentes de ChatGPT ( Android , iOS ), significa generar tres imágenes por día. El anuncio tuvo lugar este martes 25 y la función se puede encontrar como “Imágenes en ChatGPT ”.
La integración de Sora en GPT-4o permitirá generar diferentes tipos de archivos, como imágenes, texto, audio y vídeo, incluso mezclando las posibilidades.

Al parecer la generación de manos ha mejorado. Crédito: divulgación
Entre las mejoras destacadas por OpenAI está el concepto de “binding”, que se refiere a la capacidad de los generadores de imágenes de IA de mantener relaciones correctas entre atributos y objetos. Un modelo con asociación débil, por ejemplo, podría malinterpretar un comando para generar una estrella azul y un triángulo rojo, creando en cambio una estrella roja y ningún triángulo. La nueva herramienta de imágenes puede asociar correctamente atributos a 15 o 20 objetos sin confusión, lo que representa un avance significativo en precisión y confiabilidad, dice la compañía.
También se ha mejorado la representación del texto, lo que permite generar texto coherente sin errores tipográficos en una imagen.
La nueva versión de Sora integrada con GPT-4o utiliza un enfoque autorregresivo (genera imágenes de izquierda a derecha y de arriba a abajo, de forma similar a como se escribe el texto) en lugar de la técnica de modelo de difusión utilizada por la mayoría de los generadores de imágenes (como DALL-E), que crean la imagen completa a la vez.
Seguridad GPT-4o
Según OpenAI, el modelo ofrece salvaguardas para evitar la generación de deepfakes, como los generados por otros modelos, como Kamala Harris sosteniendo un arma, de Grok, o Taylor Swift desnuda, del modelo de Microsoft, o la eliminación de marcas de agua, de Gemini. La empresa afirma que la herramienta evita la eliminación de marcas de agua, bloquea la generación de deepfakes sexuales y rechaza solicitudes para generar CSAM (material de abuso sexual infantil).
Foto: Imagen creada para ser el menú de un juego en el que el jugador ve a su personaje, su equipo, misiones y poderes. Crédito: divulgación/OpenAI