Um vídeo recente demonstra como o modelo LLaMA 3 pode ser utilizado para navegar pela web e realizar tarefas complexas, como digitar, clicar, rolar e pesquisar. Isso é possível graças a uma técnica chamada “conjunto de marcas de prompt”, que envolve anotar elementos interativos em uma página web e enviar a página anotada ao modelo de linguagem para receber a próxima ação a ser executada.

O sistema utiliza um playbook para abrir uma janela de navegador e interagir com a página web. O usuário fornece uma pergunta, e o sistema anota a página web com caixas delimitadoras e envia para o modelo LLaMA 3. O modelo responde com a próxima ação a ser executada, como digitar, rolar, clicar ou pesquisar.

O sistema segue um formato rigoroso para ações, e o usuário é obrigado a fornecer observações e caixas delimitadoras rotuladas. O sistema utiliza um agente LLaMA 3 para interagir com a página web e realizar ações como digitar, clicar e rolar.

O vídeo demonstra as capacidades do sistema ao realizar tarefas como navegar para uma página web, digitar uma consulta e obter uma resposta. Além disso, o sistema também é capaz de tocar uma música no YouTube.

Em resumo, o vídeo mostra as capacidades do modelo LLaMA 3 em navegação pela web e automação de tarefas, destacando o seu potencial para realizar tarefas complexas de forma eficiente e precisa.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *