HunyuanWorld-Voyager gera vídeos consistentes espacialmente a partir de imagem única. Modelo exige pelo menos 60GB de memória GPU
A Tencent lançou o HunyuanWorld-Voyager, modelo de IA que gera sequências de vídeo consistentes em 3D a partir de uma única imagem, permitindo aos usuários “explorar” cenas virtuais através de trajetórias de câmera definidas. O sistema produz simultaneamente vídeo RGB e informações de profundidade para reconstrução 3D direta.
Os resultados não são modelos 3D verdadeiros, mas conseguem efeito similar: a IA gera frames 2D que mantêm consistência espacial como se uma câmera se movesse através de espaço 3D real. Cada geração produz apenas 49 frames (cerca de dois segundos), embora múltiplos clipes possam ser unidos para sequências de “vários minutos”.
O modelo foi treinado com mais de 100 mil clipes de vídeo, incluindo cenas geradas no Unreal Engine, ensinando-o a imitar como câmeras se movem através de ambientes 3D de jogos. A técnica combina correspondência de padrões com restrições geométricas através de “cache mundial” que mantém pontos 3D de frames anteriores.
O sistema exige poder computacional significativo, necessitando pelo menos 60GB de memória GPU para resolução 540p. A licença proíbe uso na União Europeia, Reino Unido e Coreia do Sul.


