A geração de vídeos é um desafio significativo, pois os modelos de difusão de vídeo frequentemente tratam vídeos como um tensor 4D, o que os impede de gerar vídeos em larga escala. A abordagem mais intuitiva para gerar vídeos longos é a geração auto-regressiva, que prevê quadros futuros com base nos quadros anteriores. No entanto, os modelos baseados em difusão não podem adotar essa abordagem devido aos altos custos computacionais.
Em vez disso, muitos projetos usam uma estratégia de geração auto-regressiva em chunks, que prevê vários quadros em paralelo e reduz a carga computacional. No entanto, essa abordagem pode levar a inconsistências temporais e motion discontinuo entre os chunkes previstos.
A técnica de Difusão FIFO supera essas limitações, permitindo a geração de vídeos arbitrariamente longos com base em um modelo de difusão e vídeos pré-treinados curtos. A técnica utiliza um cubo que mantém uma sequência de quadros com diferentes níveis de ruído ao longo do tempo, e gera quadros através de desembaralhamento diagonal em uma ordem de entrada-saída.
A Difusão FIFO apresenta várias vantagens, incluindo a capacidade de gerar quadros que se referem a um número suficiente de quadros anteriores e a capacidade de aliviar as limitações dos métodos auto-regressivos em chunks. A técnica também usa particionamento latente e desembaralhamento de antecipação para superar as desvantagens do desembaralhamento diagonal.
O resultado são vídeos naturais e realistas, que, embora não sejam perfeitamente nítidos, têm o potencial de ser algo grande.