Instalação e Configuração
Para começar, o speaker instalou JupyterLab e criou um ambiente virtual chamado “Lamaenv”. Em seguida, instalou o ipy-kernel, que permite conectar o ambiente virtual ao kernel do JupyterLab. Depois de configurar o JupyterLab, abriu um notebook e selecionou o kernel como “Lamaenv”.
Executando CodeLama
Em seguida, executou as células do notebook, o que o levou a escolher o sistema operacional (Mac com chip M1). Isso iniciou o processo de clonar o Lama CPP, que é usado para executar CodeLama no Mac, e compilar para o chip M1 usando Metal. Após a compilação, baixou o modelo CodeLama, especificamente o modelo “Instruct 7b” menor e quantizado com dois bits.
Configuração do Chatbot
Depois de configurar CodeLama, o speaker escolheu a opção de alto desempenho “A” para demonstrar o chatbot Jupiter Code LLaMA. Em seguida, pediu ao chatbot que escrevesse um programa que adicionasse três números, e o chatbot respondeu com um programa Python. No entanto, a resposta foi truncada devido ao comprimento máximo de resposta ser definido como 20% do contexto máximo (500 caracteres).
Restrições de Recursos
O speaker observou que idealmente você precisaria de mais de 8GB de RAM para selecionar a opção “B” para chats mais longos, que podem alcançar 16.000 caracteres ou mais com escalabilidade de rope. Ele também mencionou que mostraria como fazer isso em um vídeo futuro.
Demonstração Avançada
Em seguida, o speaker mudou para Jupiter Code LLaMA Pro, que permite o upload de arquivos e a salvaguarda de chats. Ele carregou um PDF da API Stripe como contexto e demonstrou como o chatbot pode resumir o conteúdo. Ele destacou a capacidade de exportar e salvar chats e concluiu a demonstração.
Em resumo, este artigo demonstrou como executar CodeLama em um Mac com chip M1, incluindo a instalação, configuração e demonstração do chatbot Jupiter Code LLaMA. Além disso, destacamos as restrições de recursos e como maximizar o desempenho do chatbot.