O_manager de produtos do Google, Alex Spirodonov, discute sua sessão na Google Cloud Next sobre como acelerar workloads de inferência de IA com Google Cloud GPUs e TPUs. Ele apresenta seu time, que cria software para Cloud TPUs e GPUs, com foco em inferência, que é o desdobramento de modelos de IA treinados para servir a milhões de clientes de forma eficiente e rentável.

Novos Avanços

Alex anuncia diversas novidades, incluindo:

* Jetstream, um motor de inferência de alto desempenho otimizado para modelos de linguagem grandes em Cloud TPUs, que é de código aberto e disponível no GitHub.
* Max Diffusion, uma coleção de implementações de modelos de referência de alto desempenho e código aberto para modelos de difusão e IA geradora.
* Atualizações no portfólio de produtos de GPU da Google Cloud, incluindo novas adições à família de VMs A3 e parcerias com a NVIDIA para trazer a plataforma Blackwell de próxima geração à arquitetura de hipercomputador de AI da Google Cloud.

Selecionando GPUs e TPUs para Inferência

Quando se trata de selecionar GPUs e TPUs para inferência, Alex destaca a importância de considersar otimizações de desempenho de hardware e software combinadas. A Google Cloud oferece uma escolha entre Cloud TPUs e Cloud GPUs, ambos aceleradores de IA projetados para servir modelos. Alex destaca os benefícios dos Cloud TPUs, incluindo o novo motor Jetstream, e as vantagens da colaboração da Google Cloud com a NVIDIA para Cloud GPUs.

Desafios de Modelos Geradores

John McCutchan destaca que modelos geradores, como modelos de linguagem grande, têm demandas únicas e recomenda usar tanto TPUs quanto GPUs para implantação. Ele destaca que não é uma questão de escolher um sobre o outro, mas sim dar aos clientes uma escolha e se complementar mutuamente.

Optimização de Software e Referências

A Google otimizou o Jetstream e se associou à NVIDIA para otimizar a pilha de software do GPU. Além disso, eles fornecem modelos de referência otimizados para inferência em ambos os TPUs e GPUs, tornando fácil para os desenvolvedores começar.

Conclusão

A conversa termina com um convite à comunidade para construir junto, open-sourcing pacotes de software e capacidades, e destacando a importância de considerar todo o ciclo de vida dos modelos, incluindo a implantação em produção, para minimizar custos e garantir integração suave com o Google Kubernetes Engine (GKE).

Fonte: Sumário da transcrição do vídeo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *