Video Rebirth resulta demasiado pequeña para competir en el exigente mercado de la IA para video. Con menos de dos años de existencia, la startup acumula US$ 80 millones en financiamiento y cuenta con un equipo de 30 personas que trabaja desde su sede en Singapur y desde una oficina en Hong Kong. En un sector donde entrenar modelos de video de vanguardia cuesta decenas de millones de dólares —y mantenerlos en funcionamiento cuesta todavía más—, Video Rebirth debería quedar afuera de la competencia.
Sin embargo, justo antes del lanzamiento público de su modelo insignia en mayo, la compañía logró ubicarse en un lugar destacado junto a los gigantes tecnológicos. El modelo Bach de Video Rebirth debutó en el sexto puesto del ranking de conversión de texto a video de Artificial Analysis, por detrás de modelos desarrollados por Alibaba, ByteDance, Kuaishou Technology y xAI. Bach sigue siendo el modelo de startup mejor posicionado en la clasificación, con el precio por minuto de video generado más bajo entre los diez primeros.
“Para un equipo de nuestro tamaño, esa fue una señal clara de que nuestro enfoque estaba funcionando”.
Liu Wei, cofundador y CEO de Video Rebirth.
Según Liu, desarrollar motores de video con IA representa solo el comienzo. Al entrenar la IA para crear imágenes que no solo resulten realistas, sino que también respeten las leyes de la física, su objetivo consiste en construir modelos capaces de generar mundos hiperrealistas.
Es un campo de alto riesgo en el que compiten gigantes tecnológicos como Google, Meta y OpenAI, que buscan desarrollar el llamado modelo de mundo, con la promesa de revolucionar industrias como la conducción autónoma, la robótica y los videojuegos. Frente a estos gigantes, Liu asegura que está construyendo un modelo del mundo "verdaderamente significativo", capaz de comprender su entorno y simular qué ocurrirá después, de manera similar a cómo una persona anticipa un resultado a partir del sentido común y la intuición.
"Generamos videos para construir un modelo de mundo", explicó Liu. También agregó: “En tres años, demostraremos que podemos simular el mundo físico en tiempo real”.
Para lograrlo, Video Rebirth cerró en marzo una ronda semilla de US$ 80 millones, con una valuación no revelada. Entre los inversores que participaron de la ronda figuran AMD Ventures, el brazo de venture capital del desarrollador estadounidense de chips de IA Advanced Micro Devices, que dirige la multimillonaria Lisa Su; ZER01NE, el brazo de venture capital del fabricante surcoreano de autos Hyundai Motor Group, liderado por el multimillonario Euisun Chung; Hiven, una firma de inversión afiliada al conglomerado coreano de alimentos y entretenimiento CJ Group; el desarrollador coreano de videojuegos Actoz Soft; Qiming Venture Partners, con sede en Shanghái, y Gaw Capital, la firma de capital privado con sede en Hong Kong presidida por el multimillonario Goodwin Gaw.
Video Rebirth afirma que realizará una nueva ronda de financiamiento en julio, pero no quiso brindar más detalles.
"Nuestra filosofía parte de la convicción de que la generación de video es mucho más que una herramienta para crear contenido; representa una de las vías más claras y viables hacia los modelos de mundo", afirmó Fang Wei, gerente senior de inversiones de Hyundai Cradle, un programa de ZER01NE. "Video Rebirth comparte esta misma visión desde el primer día y posiciona su tecnología para habilitar usos futuros clave en la IA física", agregó.
Bach, de Video Rebirth, apunta a clientes corporativos de los sectores de la publicidad, el entretenimiento, el cine y los videojuegos. Su principal característica es generar videos de múltiples tomas de hasta 45 segundos a partir de imágenes de referencia y prompts de texto. En comparación, Seedance 2.0 de ByteDance, un modelo popular para la generación de video de múltiples tomas mediante IA que la compañía lanzó en febrero, tiene un límite de 15 segundos, aunque también permite importar video y audio. Bach también produce clips de hasta 10 segundos a partir de texto o imágenes y vincula un personaje estático con un video de referencia.
Video Rebirth compite en un mercado saturado y costoso, ya que la generación de videos exige mucha más potencia computacional que la generación de texto. El costo financiero de esta carrera por la IA aplicada al video quedó en evidencia cuando OpenAI decidió cerrar abruptamente su plataforma Sora en marzo, a pesar de que la app móvil había acumulado casi 10 millones de descargas desde su lanzamiento en septiembre y había firmado un acuerdo de licencia y participación accionaria por US$ 1.000 millones con Walt Disney, hoy cancelado. En noviembre, Forbes estimó que OpenAI gastaba alrededor de US$ 15 millones diarios para producir millones de videos de 10 segundos a pedido de los usuarios, con un costo aproximado de US$ 1,30 por video.
"El costo de inferencia —la etapa en la que se utiliza la IA ya entrenada— limitó a OpenAI", afirmó Liu. Agregó que el costo para que Bach genere un clip de 10 segundos es "significativamente inferior al de otros modelos de vanguardia", aunque no quiso revelar la cifra exacta por motivos de confidencialidad. La startup logra reducir el costo de inferencia gracias a su tecnología propia, que, según Liu, puede acelerar la generación de video hasta 10 veces.
Esta técnica matemática, denominada pérdida de muestreo multietapa, entrena al modelo para anticipar y corregir errores durante el proceso de generación, lo que reduce el número de pasos necesarios para crear el video final. En cambio, según Liu, la mayoría de los modelos tradicionales no pueden predecir fallas y, por lo tanto, tardan más en ejecutarse.
Las ventajas financieras también superan los costos de entrenamiento. Liu afirma que Bach requirió apenas una fracción del presupuesto de modelos de frontera comparables, aunque no dio más detalles. El CEO de Video Rebirth explica que lo consiguió al entrenar el modelo con menos videos, pero de mayor calidad, incluidos películas y videos musicales con licencia, además de clips grabados internamente, la mayoría con una resolución de 720p. Además, Video Rebirth diseñó Bach para separar las tareas de seguimiento de eventos y generación visual, a diferencia de otros modelos que dependen de un único procesador para ambas funciones. Según Liu, esta división del trabajo permite alcanzar una mayor eficiencia computacional.
En respuesta a las afirmaciones de Liu, un vocero de OpenAI sostuvo en un correo electrónico que "a medida que aumenta la demanda de capacidad de cómputo, el equipo de investigación de Sora reorienta su trabajo hacia la simulación del mundo para impulsar avances en robótica y en tareas físicas del mundo real".
Además de reducir costos, Liu afirma que Video Rebirth también se destaca por su capacidad para generar videos que respetan las leyes de la física, como la gravedad, las colisiones entre objetos y la iluminación, lo cual constituye un obstáculo crucial en una industria en la que los objetos en los videos creados con IA a menudo se transforman o adquieren un aspecto extraño.
Además, agrega que su IA es especialmente eficaz para mantener la coherencia del producto, una prioridad para los anunciantes de e-commerce, y sobresale en la generación de expresiones faciales y planos escénicos para cineastas. Hiven declaró en el anuncio de la ronda de financiamiento de Video Rebirth en marzo que prevé colaborar con la startup en todos los negocios de CJ, incluida la unidad de entretenimiento de CJ ENM, que produce K-dramas y películas.
Según Fang, de Hyundai, la ventaja de Video Rebirth reside en "su foco en la controlabilidad y la coherencia propias del segmento corporativo". Agrega que la startup aborda algunos de los puntos críticos de la generación de video, como la capacidad de la IA para comprender la relación de causa y efecto, así como la forma en que los objetos se mueven en el espacio y el tiempo.
Gracias a su tecnología para generar objetos y entornos que no solo resultan estéticos, sino también realistas y físicamente precisos, Video Rebirth desarrolla un modelo de mundo capaz de crear entornos 3D interactivos en tiempo real a partir de prompts de texto. A diferencia de las simulaciones 3D tradicionales, que requieren líneas de código para su creación y solo reaccionan ante lo preprogramado, un modelo de mundo consiste en una IA que comprende las propiedades físicas del mundo real y simula qué ocurrirá después, incluso en situaciones que nunca antes "vio".
Los modelos de mundo todavía se encuentran en una etapa inicial, pero cada vez más empresas apuestan por esta tecnología para entrenar autos autónomos capaces de gestionar situaciones inesperadas, enseñar a los robots a trabajar de manera más inteligente y acelerar el desarrollo de videojuegos.
En enero, Google comenzó a implementar Genie 3, que permite a los usuarios generar cualquier entorno, navegarlo con las teclas de flecha e iniciar nuevos eventos, como agregar un objeto nuevo. Aunque Genie 3 solo admite interacción durante unos minutos, su lanzamiento provocó una caída en las acciones de empresas de videojuegos, incluida Unity Software, ante el temor de que la tecnología volviera obsoletos los motores de juego tradicionales.
Waymo, la unidad de conducción autónoma de Alphabet, utiliza actualmente este modelo de mundo para probar vehículos autónomos en escenarios que van desde desastres naturales hasta situaciones poco frecuentes, como un camión averiado que bloquea la ruta.
Otras empresas que desarrollan modelos de mundo van desde gigantes tecnológicos como Alibaba, Nvidia y OpenAI hasta startups con amplio financiamiento, como Runway, respaldada por Google, y World Labs, cofundada por la pionera de la IA Fei-Fei Li.
Según Alec Wrubel, socio asociado de McKinsey en Los Ángeles, los modelos de mundo se encuentran en un punto intermedio entre la expectativa que generan y la verdadera disrupción. "Actualmente, los modelos de mundo atraviesan, en gran medida, una fase inicial de desarrollo. Representan una frontera importante en la IA, pero todavía no alcanzan el nivel de precisión ni el perfil de costos necesarios para una implementación generalizada en todos los sectores", afirmó.
Liu planea demostrar que el modelo de mundo de Video Rebirth es revolucionario, y la startup apunta a lanzar uno hacia fines de 2026. Llamado Olympus, el modelo funcionará de manera similar a Genie 3, con la diferencia de que también podrá generar sonidos ambientales, como el impacto de una colisión o el repiqueteo de pasos, según Liu. ZER01NE declaró en el anuncio de marzo que considera a Video Rebirth un "socio clave para el futuro de la movilidad", con potencial para utilizar su tecnología "para entrenar IA física en mundos digitales hiperrealistas". Hyundai Motor tiene un rol importante en la conducción autónoma y es propietario del fabricante estadounidense de robots Boston Dynamics.
"A medida que escalemos nuestro modelo de mundo, podrá simular escenarios físicos cada vez más complejos en tiempo real", afirmó Liu. También remarcó: “Cuando eso ocurra, el modelo de mundo no se limitará a los videojuegos ni a la IA incorporada. Podremos abarcar una amplia gama de usos industriales”.
La ambición de Liu de desarrollar un modelo de mundo surgió a principios de 2024, cuando OpenAI presentó Sora, su modelo de video, al que la referente de la IA definió como un "simulador de mundo". Liu, que por entonces era científico distinguido de Tencent —un título de alto nivel que el gigante tecnológico chino otorga a investigadores de élite— y lideraba el desarrollo desde cero del modelo de IA Hunyuan de la compañía, anticipó hacia dónde se dirigía la industria.
"Aunque recién era 2024, sentía que el amplio campo de los modelos de lenguaje ya estaba muy saturado, con gigantes tecnológicos que habían consolidado sus posiciones", afirmó Liu. "Mientras tanto, la IA física era un lienzo completamente en blanco. Sora convenció a todos de que el mundo físico podía simularse, aunque en aquel momento pareciera increíblemente difícil", recordó.
Liu estaba convencido de que podía lograr esa simulación y contaba con las credenciales necesarias para respaldar esa convicción. Doctor en informática e ingeniería eléctrica por la Universidad de Columbia, investiga aprendizaje automático desde 2007, impulsado por su interés en las matemáticas. A lo largo de los años, ocupó cargos de investigación en IBM y en la gigante china de viajes compartidos Didi, además de dar clases en el Rensselaer Polytechnic Institute y en el Stevens Institute of Technology, en Estados Unidos, antes de incorporarse a Tencent en 2016.
"Wei es un fundador excepcional que combina una capacidad de investigación de primer nivel con una profunda experiencia en la industria", afirmó Zhou, de Qiming. "Siempre fue uno de los expertos técnicos en IA en los que más confío. Cada vez que se producía un avance importante en los modelos de IA, solía consultarle su opinión desde el principio, y sé que muchos ejecutivos del sector tecnológico hacían lo mismo", sostuvo.
Al identificar una oportunidad en la IA física, Liu dejó en septiembre de 2024 su bien remunerado empleo en Tencent para fundar Video Rebirth. Para crear la empresa, reunió a un equipo de cofundadores, entre ellos Li Difu, exdirector del Tencent AI Lab; Liu Peng, exdesarrollador cuantitativo de JPMorgan Chase; y Dan Kong, quien antes se desempeñó como director de 42X Fund, un fondo de inversión de G42, una compañía de IA respaldada por Abu Dhabi.
Aunque los modelos de lenguaje a gran escala tardaron más de dos décadas en masificarse tras un avance inicial en 2003, cuando se publicó un artículo académico que describía su funcionamiento, Liu predice que el camino hacia la adopción masiva de los modelos de mundo será más largo. Anticipa que durante los próximos 12 meses se concentrarán principalmente en avances técnicos en el laboratorio.
Sin embargo, el plazo no intimida a Liu. "Voy a dedicar toda mi energía, sin reservas, a la investigación y el desarrollo hasta lograr crear un modelo de mundo comercialmente viable", declaró. "Ese día llegará, sin ninguna duda", concluyó.
*Esta nota fue publicada originalmente en Forbes.com.