O Problema e a Solução
Os modelos de linguagem atualmente sofrem para compreender as estruturas de páginas web, incluindo HTML, CSS e árvores de acessibilidade. Tersier vem resolver esse problema fornecendo um sistema de percepção poderoso para agentes web. O projeto utiliza GPT4 Vision e Reconhecimento Óptico de Caracteres (OCR) para converter capturas de tela de páginas web em strings estruturadas que os modelos de linguagem podem entender.
Requisitos
Para executar Tersier localmente, você precisará de:
* Uma chave de API da OpenAI
* Um serviço de OCR de um provedor de nuvem como Google Vision OCR
* Uma conta do Google Cloud
Como Funciona
Tersier:
* Identifica elementos visivelmente interativos em uma página web usando colchetes e IDs
* Mapeia elementos para IDs para que os modelos de linguagem possam realizar ações (por exemplo, clicar ou rolar)
* Define elementos interativos como botões, links ou campos de entrada visíveis na página
* Marca elementos factuais usando OCR
O algoritmo do projeto converte capturas de tela de páginas web em strings estruturadas, semelhantes à arte ASCII, permitindo que os modelos de linguagem compreendam as páginas web sem capacidades visuais.
Instalação
Você pode instalar Tersier usando pip: `pip install tercier`.
Além disso, o vídeo também apresenta um exemplo de como usar Langchain, um modelo de linguagem, com Playwright, uma biblioteca Python para automatizar navegadores web. No vídeo, o speaker demonstra como configurar e executar Langchain em um servidor.
No entanto, é importante notar que o uso de Google Cloud Vision OCR services é um serviço pago e pode ser caro. É recomendável que os desenvolvedores criem seu próprio algoritmo de OCR ou capacidades em vez de depender de serviços de terceiros.
Em resumo, Tersier é uma solução promissora para tarefas de interação web, especialmente para ambientes de produção e casos de uso empresarial. No entanto, é importante considerar as limitações e os custos associados ao uso de serviços de terceiros.
Recomendamos assistir ao vídeo para entender melhor como Tersier pode ajudar a resolver os desafios de compreensão de estrutura de páginas web.