Um novo modelo de linguagem chamado LLaMA 3 with Vision tem chamado a atenção pela sua capacidade de processar e entender informações visuais. Esse modelo é uma combinação do modelo de linguagem LLaMA 3 com um encoder de visão, permitindo que ele entenda e processe informações visuais.

Desempenho em benchmarks

O modelo LLaMA 3 with Vision superou modelos estabelecidos como o GPT 3.5 em vários benchmarks, incluindo o MMLU (Triple MU), Math Vista, AI2D, Chart QA e Dock PQA. Em particular, ele se saiu bem em benchmarks que testam a compreensão visual e a capacidade de responder a perguntas.

Arquitetura do modelo

A arquitetura do modelo é relativamente simples e eficiente. Ele usa o modelo SigLIP (Sigmoid Loss for Language-Image Pre-training) para embutar imagens em uma série de embeddings de batch, que são então alinhadas com tokens de texto via um bloco de projeção. A representação conjunta é então passada para o modelo LLaMA 3.

SigLIP: um modelo de embedding de imagem

O modelo SigLIP é um modelo de embedding de imagem similar ao CLIP, mas usa uma perda sigmoidal em vez de perda contrastiva com normalização softmax. O encoder de visão divide uma imagem em patches não-overlapping, projeta-os em um espaço de embedding linear de baixa dimensão e aplica atenção própria para capturar dependências de longo alcance e recursos visuais de alto nível.

Vantagens e encorajamento

O modelo LLaMA 3 with Vision é elogiado por sua eficiência e pela maneira como o encoder de visão foi adicionado ao modelo LLaMA 3 existente. Além disso, o modelo apresenta um desempenho muito próximo a outros modelos de estado da arte.

Conclusão

O modelo LLaMA 3 with Vision é uma adição impressionante ao campo de modelos de linguagem e visão. Seu desempenho em benchmarks e sua eficiência o tornam um modelo atrair para aqueles que desejam explorar as capacidades de processamento de linguagem e visão.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *