Una nueva inteligencia artificial generativa fue lanzada al mercado. Esta vez, la creadora es ByteDance, la misma empresa detrás de TikTok, que sigue intentando mantenerse a flote en Estados Unidos. El nuevo modelo de IA genera videos a partir de una foto. Su nombre es OmniHuman.
OmniHuman busca combatir la escasez de datos de alta calidad
La herramienta es capaz de generar videos realistas de personas hablando, cantando y moviéndose de manera natural, de acuerdo con los investigadores de ByteDance. El equipo entrenó OmniHuman con más de 18.700 horas de videos de seres humanos, utilizando un enfoque que combina múltiples tipos de entrada: texto, audio y movimientos corporales. Esta estrategia de entrenamiento, denominada “omni-condiciones”, permite que la IA aprenda con conjuntos de datos mucho más grandes y diversos que los métodos anteriores.
«En OmniHuman, introducimos una estrategia de entrenamiento mixto con condicionamiento por múltiples modalidades, lo que permite que el modelo se beneficie del aumento en la escala de datos con condicionamiento mixto. Esto resuelve el problema que enfrentaban los enfoques anteriores de extremo a extremo debido a la escasez de datos de alta calidad. OmniHuman supera significativamente los métodos existentes, generando videos de personas extremadamente realistas a partir de señales de entrada mínimas, especialmente audio. Es compatible con imágenes de cualquier proporción, ya sean retratos, tomas de medio cuerpo o cuerpo completo, ofreciendo resultados más realistas y de alta calidad en diversos escenarios”, escribieron los creadores.
OmniHuman acepta una amplia variedad de entradas, como caricaturas, objetos artificiales, animales y poses de todo tipo, incluso las más desafiantes.
Gracias a su entrenamiento con condicionamiento mixto, la IA generativa de ByteDance puede no solo ser dirigida por audio, sino también por video para imitar acciones específicas. Además, permite la combinación de audio y video para controlar partes específicas del cuerpo, como en los métodos más recientes.
Aquí algunos ejemplos de OmniHuman: