Implantando um Servidor de Transcrição de Fala com FasterWhisper e OpenAI

ByVolnei Filho

maio 28, 2024 #API, #Desenvolvimento de Software, #Docker, #FasterWhisper, #GPU, #Inteligência Artificial, #OpenAI, #Processamento de Fala, #Servidor de Transcrição, #Transcrição de Fala

Neste artigo, vamos explorar a implementação de um servidor de transcrição de fala utilizando o FasterWhisper, uma solução de código aberto compatível com a API do OpenAI. Além disso, vamos demonstrar como configurar um ambiente de desenvolvimento com um sistema Ubuntu 22.04 e um GPU NVIDIA RTX A6000.

FasterWhisper: Um Servidor de Transcrição de Fala mais Rápido

O FasterWhisper é um servidor de transcrição de fala que utiliza o modelo de fala-para-texto do OpenAI, mas com melhorias de desempenho. Além de ser compatível com a API do OpenAI, o FasterWhisper suporta processamento em GPU e CPU, e pode ser facilmente implantado com Docker. É configurável por meio de variáveis de ambiente.

Configurando o Ambiente de Desenvolvimento

Para começar, criamos um novo ambiente virtual usando Conda e instalamos os pacotes necessários. Em seguida, clonamos o repositório do FasterWhisper do GitHub e 改amos para o diretório do repositório. Lá, encontramos um arquivo de áudio de exemplo, um arquivo de composição do Docker e um arquivo Dockerfile.

Iniciando o Servidor FasterWhisper

Em seguida, executamos um comando para iniciar o servidor FasterWhisper usando o arquivo Dockerfile, que offloada o processamento para o GPU, usa a porta local 8000 e cria um volume do Docker local. Em seguida, aguardamos o download da imagem do Docker e o início do aplicativo.

Acessando o Servidor FasterWhisper

Depois de iniciado o servidor, abrimos uma nova janela do terminal para acessar o servidor FasterWhisper, que está rodando na porta 8000. Em seguida, definimos uma variável de ambiente para a chave da API do OpenAI, que requer uma assinatura paga.

Demonstração da Capacidade do FasterWhisper

Em seguida, o apresentador configura as variáveis de ambiente da API do OpenAI e da URL base, instala o OpenAI usando pip e inicializa o cliente do OpenAI com a chave da API e a URL base. Em seguida, carrega um arquivo de áudio e usa o método `client.audio.transcription` para transcrever o arquivo de áudio usando o modelo “distil-large-v3” em um servidor FasterWhisper local.

Resultados Impressionantes

O processo de transcrição leva cerca de 5,7 segundos e produz uma transcrição precisa do arquivo de áudio. O apresentador está impressionado com a velocidade e precisão da transcrição e convida os espectadores a compartilharem seus pensamentos.

By Volnei Filho

Transcrição

Implantando um Servidor de Transcrição de Fala com FasterWhisper e OpenAI

ByVolnei Filho

By Volnei Filho

Related Post

Utilizando a ferramenta TLDW para transcrever e resumir vídeos com Inteligência Artificial

Transcrevendo Áudios e Vídeos para Texto de forma Gratuita com Whisper e Google Collaboratory

Adicionando Legendas de Nível de Palavra a Vídeos com DeepGram e OpenAI’s Whisper

Deixe um comentário Cancelar resposta

You missed

Conditional Access: A Política de Segurança Next-Gen para a Proteção de Dados em Ambientes Cloud

Proteção contra Riscos Internos: Como a Microsoft Entra e Microsoft Purview podem ajudar

Configurando Políticas de Acesso Condicional com Autenticação Multifator no Azure: Um Guia Prático

Configurando e Aplicando Políticas de Acesso Condicional no Azure AD: Um Guia para Segurança Avançada