O Processo
O processo envolve três etapas:
1. Utilizar o serviço Whisper do Glock API para transcrever rapidamente um áudio.
2. Utilizar o modelo LLaMA 3.8 bilhões do Glock API para gerar uma resposta.
3. Utilizar o conversor de texto-para-fala do DeepGram para gerar o áudio final.
Comparação de Desempenho
Ada demonstra a diferença de velocidade entre o serviço Whisper do OpenAI API (67 segundos para um áudio de 30 minutos) e o serviço Whisper do Glock API (24 segundos para o mesmo áudio). Além disso, ela mostra como utilizar o DeepGram para conversão de texto-para-fala.
Código Aberto
Ada promete disponibilizar o código no GitHub, de forma aberta e gratuita, e guia o espectador pela estrutura do código. O código estará disponível em alguns dias, e Ada convida os espectadores a acompanhar.
Etapes para Criar um Assistente de Chat
As etapas para criar um assistente de chat utilizando as APIs Croc e DeepGram são:
1. Configurar as chaves API do Croc e do DeepGram.
2. Inicializar o histórico de chats com o papel do sistema como assistente.
3. Criar clients do Croc e do DeepGram com as chaves API.
4. Configurar opções do DeepGram API, incluindo seleção de voz e configurações de áudio.
5. Gravar áudio do microfone e transcrevê-lo utilizando o Whisper API.
6. Anexar a entrada do usuário ao histórico de chats.
7. Gerar uma resposta utilizando o Croc API e anexá-la ao histórico de chats.
8. Converter a resposta em fala utilizando o DeepGram API e salvá-la em um arquivo de áudio.
9. Reproduzir o arquivo de áudio output.
Desafios e Novidades
O transcript também destaca alguns desafios, como limites de taxa com o API Grok e a necessidade de encontrar o tempo de buffer correto antes de chamar o DeepGram API. Além disso, Ada anuncia um próximo vídeo sobre como criar uma versão local do assistente de chat utilizando modelos locais.