Sora é um modelo de texto-para-vídeo que pode manter a coerência entre os frames e renderizar vídeos em diferentes proporções de imagem. No entanto, o modelo não é open-source e é improvável que seja liberado para o público devido a preocupações sobre uso indevido.
O processo de geração de vídeos é baseado em um modelo de difusão, semelhante ao DALL-E e ao Stable Diffusion, onde ruído aleatório é gradualmente atualizado para uma imagem coerente. Sora utiliza uma grande quantidade de poder de computação e adota uma abordagem distinta para entender dados de vídeo, tokenizando patches visuais, que capturam informações visuais e temporais.
A tecnologia de Sora tem o potencial de mudar o mundo, mas também apresenta ameaças a certas carreiras, como produção de vídeo, cinematografia e animação. Além disso, também há preocupações sobre uso indevido da tecnologia e seu impacto na cultura humana.
Apesar de sua impressionante capacidade, o criador do vídeo também destaca as limitações da tecnologia, como falhas em física e interações humanoides. O vídeo termina com uma sensação de crise existencial e preocupação com o avanço rápido da tecnologia de IA.