Multimodalidade e Incorporações Multimodais
A multimodalidade permite que modelos de aprendizado de máquina processem e entendam diferentes tipos de dados. Para fazê-lo, é necessário aprender sobre incorporações multimodais, que permitem representar dados multimodais no mesmo espaço de vetor.
Aprendizado Contraste
O vídeo apresenta o conceito de aprendizado contraste, uma técnica que usa uma função de perda contraste para impulsionar e puxar incorporações vetoriais de exemplos semelhantes e dissimilares. O processo envolve codificar dados de âncora e exemplo em incorporações vetoriais, calcular a distância entre a âncora e os exemplos, minimizar a distância entre a âncora e exemplos positivos e maximizar a distância entre a âncora e exemplos negativos.
Aprendizado Contraste Multimodal
Este conceito é expandido para dados multimodais, onde exemplos positivos e negativos são fornecidos em diferentes modalidades (por exemplo, imagens, texto, vídeo). O objetivo é alinhar o modelo para funcionar no mesmo espaço de vetor em todas as modalidades.
Implementação Prática
O vídeo demonstra uma implementação prática do aprendizado contraste usando PyTorch e o conjunto de dados MNIST. O código importa bibliotecas necessárias, carrega o conjunto de dados MNIST, define uma função de perda contraste e treina uma rede neural para aprender incorporações para o conjunto de dados MNIST.
Visualizando o Espaço de Vetor
O vídeo explica como visualizar o espaço de vetor de uma rede neural treinada usando aprendizado contraste. Os passos envolvem codificar o conjunto de dados de treinamento, reduzir a dimensionalidade do espaço de vetor e visualizar os vetores 3D em um gráfico de dispersão interativo. O vídeo também demonstra como usar UMAP para visualizar as incorporações de treinamento em um espaço 2D.
Conclusão
O vídeo apresenta o processo de treinamento de um modelo de aprendizado contraste ao longo de 100 épocas, onde incorporações semelhantes convergem e incorporações diferentes divergem em direções diferentes. Os principais pontos de partida incluem a implementação do aprendizado contraste, o impulsionamento e o puxamento de exemplos negativos e positivos, e o uso de PCA e UMAP para analisar os resultados de treinamento.