
Un recital no es solo audio. Son pantallas, loops, transiciones, imágenes que cambian con cada canción. Y alguien tiene que producir todo eso.
Aren't Lab coordinó las visuales para el show de Nick Carter. El brief: 150 imágenes más videos, en una semana, con un equipo aprobando y corrigiendo sobre la marcha. El tipo de proyecto donde normalmente algo se rompe.
No se rompió nada.
El brief era un Excel
Cada canción tenía sus escenas pensadas. Una oración descriptiva por momento. En total, 150 imágenes que había que generar mientras se armaban los videos en paralelo.
El problema típico de estos proyectos es el cuello de botella en aprobaciones. Generás, esperás feedback, corregís, volvés a esperar. Con 150 assets, ese loop se multiplica por 150.
El workflow que funcionó
Había imágenes de referencia para cada escena. El primer paso fue convertir esas referencias a texto—extraer lo que importaba de cada imagen. Después, de texto a imagen nuevamente, pero con el estilo y los elementos que necesitaban.
Como muchas escenas compartían estilo o elementos recurrentes, la iteración fue rápida. Un resultado funcionaba como base para el siguiente. Remix sobre remix.
Lo interesante fue usar distintos modelos según el caso. Nano Banana para cuando había texto en la imagen. GPT Image para lograr estilos específicos. Seedream para escenas que necesitaban realismo.
No hay un modelo que haga todo bien. Pero cuando podés elegir el correcto para cada situación, el resultado llega más rápido.
Lo que cambió desde entonces
Este proyecto se hizo a mediados de 2025. Los modelos disponibles eran bastante más limitados que hoy.
Las animaciones se hicieron con Kling 2.0. Las imágenes, con Nano Banana común en baja resolución y upscaling posterior. Funcionó, pero requería pasos extra.
Hoy el mismo proyecto sería más rápido. Kling 3 dio un salto de realismo abismal respecto a la versión 2. Nano Banana Pro, Flux Max y GPT Image 1.5 son modelos más eficientes, con mejor adherencia al prompt y output directo en 4K—sin necesidad de upscaling.
La velocidad a la que Dual incorpora modelos nuevos es parte de la propuesta. Lo que hace seis meses requería workarounds hoy se hace directo. Y lo que hoy requiere workarounds, probablemente en seis meses se hace directo también.
El prompt enhancer hizo trabajo pesado
Cada escena tenía una oración descriptiva en el brief. Esas oraciones estaban pensadas para humanos, no para modelos de IA.
El prompt enhancer las transformaba en prompts funcionales. "Escena nostálgica de los 90s con luces de neón" se convertía en algo que el modelo podía interpretar correctamente.
Menos tiempo escribiendo prompts, más tiempo eligiendo resultados.
La parte colaborativa
Con un equipo aprobando assets en tiempo real, el board compartido se volvió central. Todos veían el mismo canvas. Las correcciones se marcaban ahí. Los assets aprobados se separaban de los que necesitaban otra vuelta.
Sin eso, el proyecto hubiera sido un infierno de archivos en carpetas, versiones perdidas, y WhatsApps preguntando "¿cuál era la última?"
El resultado
150 imágenes. Una semana. Videos armándose en paralelo con los assets que se iban aprobando.
La persona que lo ejecutó lo resumió así: "Tardé más en elegir los entregables que en llegar al resultado ideal."
Ese es el cambio. No es que la IA haga el trabajo sola. Es que el tiempo se mueve de producción a decisión. Menos horas renderizando, más horas curando.
Aren't Lab usó Dual para producir las visuales del show de Nick Carter.


