Os modelos de difusão funcionam quebrando o processo de geração de imagem em etapas menores e iterativas. O objetivo é treinar uma rede neural para “desfazer” o processo de adição de ruído a uma imagem, e então usar essa rede para gerar uma imagem a partir de ruído aleatório, iterando o processo em reverso.
Além disso, os modelos de difusão podem ser usados para gerar imagens específicas, como um híbrido de sapo e coelho, condicionando a rede com entradas de texto. Isso abre possibilidades para uma ampla gama de aplicações, desde a geração de imagens realistas até a criação de arte digital.
Outro tópico discutido foi a técnica de “orientação de classificador livre” em modelos de geração de imagem. Esta técnica envolve o uso de duas redes neurais, uma com e outra sem informações sobre a imagem, e ampliar a diferença entre suas previsões para guiar a geração de uma imagem final. Embora não seja perfeita, essa técnica produz resultados melhores do que os métodos tradicionais.
Uma das principais vantagens dos modelos de difusão é a acessibilidade. Além de serem mais fáceis de treinar do que os GANs, é possível acessar modelos como o Stable Diffusion gratuitamente por meio do Google Colab.
O futuro parece promissor para os modelos de difusão, e é emocionante explorar e compartilhar conhecimento sobre essa abordagem revolucionária de geração de imagens.