FasterWhisper: Um Servidor de Transcrição de Fala mais Rápido
O FasterWhisper é um servidor de transcrição de fala que utiliza o modelo de fala-para-texto do OpenAI, mas com melhorias de desempenho. Além de ser compatível com a API do OpenAI, o FasterWhisper suporta processamento em GPU e CPU, e pode ser facilmente implantado com Docker. É configurável por meio de variáveis de ambiente.
Configurando o Ambiente de Desenvolvimento
Para começar, criamos um novo ambiente virtual usando Conda e instalamos os pacotes necessários. Em seguida, clonamos o repositório do FasterWhisper do GitHub e 改amos para o diretório do repositório. Lá, encontramos um arquivo de áudio de exemplo, um arquivo de composição do Docker e um arquivo Dockerfile.
Iniciando o Servidor FasterWhisper
Em seguida, executamos um comando para iniciar o servidor FasterWhisper usando o arquivo Dockerfile, que offloada o processamento para o GPU, usa a porta local 8000 e cria um volume do Docker local. Em seguida, aguardamos o download da imagem do Docker e o início do aplicativo.
Acessando o Servidor FasterWhisper
Depois de iniciado o servidor, abrimos uma nova janela do terminal para acessar o servidor FasterWhisper, que está rodando na porta 8000. Em seguida, definimos uma variável de ambiente para a chave da API do OpenAI, que requer uma assinatura paga.
Demonstração da Capacidade do FasterWhisper
Em seguida, o apresentador configura as variáveis de ambiente da API do OpenAI e da URL base, instala o OpenAI usando pip e inicializa o cliente do OpenAI com a chave da API e a URL base. Em seguida, carrega um arquivo de áudio e usa o método `client.audio.transcription` para transcrever o arquivo de áudio usando o modelo “distil-large-v3” em um servidor FasterWhisper local.
Resultados Impressionantes
O processo de transcrição leva cerca de 5,7 segundos e produz uma transcrição precisa do arquivo de áudio. O apresentador está impressionado com a velocidade e precisão da transcrição e convida os espectadores a compartilharem seus pensamentos.