No vídeo, exploramos o modelo Falcon RW de 1 bilhão de parâmetros, um modelo decoder-only desenvolvido pelo Technology Innovation Institute nos Emirados Árabes Unidos. Esse modelo é adequado para dispositivos de borda e está disponível sob a licença Apache 2.
Para instalar o modelo, utilizamos Ubuntu 22.04 com um GPU RTX A6000 com 48 GB de VRAM, fornecido pela Mast Compute. Em seguida, instalamos as bibliotecas necessárias, incluindo torch, transformers e sentence piece accelerator, utilizando o conda. Depois, criamos um ambiente conda, ativamos e importamos as bibliotecas necessárias.
O modelo Falcon RW de 1 bilhão de parâmetros é configurado com parâmetros específicos, como limite de comprimento (até 200 tokens) e um parâmetro de filtragem (“top k”) definido como 10, que limita o número de tokens que o modelo pode escolher em cada etapa. Além disso, o modelo é configurado para gerar apenas uma sequência de texto.
Durante a demonstração, testamos o modelo com diferentes prompts, gerando textos de até 10 sentenças que terminam com a palavra “beauty”. No entanto, os resultados não foram inteiramente satisfatórios, com a maioria das sentenças não terminando com a palavra “beauty”. Em seguida, testamos o modelo com outros prompts, como disciplinar um pet rock e resolver um problema matemático, mas o modelo luta para fornecer respostas coerentes.
É importante notar que o modelo não está ajustado e foi treinado apenas em um conjunto de dados de web refinados, o que pode contribuir para seu desempenho ruim nessas tarefas. No entanto, quando questionado sobre respostas dentro de seu domínio (ou seja, do conjunto de dados de web refinados), o modelo se sai bem.
Em resumo, o modelo Falcon RW de 1 bilhão de parâmetros tem potencial para uso em dispositivos de borda, mas requer ajustamento em um conjunto de dados específico para um desempenho ótimo.