Novos Avanços
Alex anuncia diversas novidades, incluindo:
* Jetstream, um motor de inferência de alto desempenho otimizado para modelos de linguagem grandes em Cloud TPUs, que é de código aberto e disponível no GitHub.
* Max Diffusion, uma coleção de implementações de modelos de referência de alto desempenho e código aberto para modelos de difusão e IA geradora.
* Atualizações no portfólio de produtos de GPU da Google Cloud, incluindo novas adições à família de VMs A3 e parcerias com a NVIDIA para trazer a plataforma Blackwell de próxima geração à arquitetura de hipercomputador de AI da Google Cloud.
Selecionando GPUs e TPUs para Inferência
Quando se trata de selecionar GPUs e TPUs para inferência, Alex destaca a importância de considersar otimizações de desempenho de hardware e software combinadas. A Google Cloud oferece uma escolha entre Cloud TPUs e Cloud GPUs, ambos aceleradores de IA projetados para servir modelos. Alex destaca os benefícios dos Cloud TPUs, incluindo o novo motor Jetstream, e as vantagens da colaboração da Google Cloud com a NVIDIA para Cloud GPUs.
Desafios de Modelos Geradores
John McCutchan destaca que modelos geradores, como modelos de linguagem grande, têm demandas únicas e recomenda usar tanto TPUs quanto GPUs para implantação. Ele destaca que não é uma questão de escolher um sobre o outro, mas sim dar aos clientes uma escolha e se complementar mutuamente.
Optimização de Software e Referências
A Google otimizou o Jetstream e se associou à NVIDIA para otimizar a pilha de software do GPU. Além disso, eles fornecem modelos de referência otimizados para inferência em ambos os TPUs e GPUs, tornando fácil para os desenvolvedores começar.
Conclusão
A conversa termina com um convite à comunidade para construir junto, open-sourcing pacotes de software e capacidades, e destacando a importância de considerar todo o ciclo de vida dos modelos, incluindo a implantação em produção, para minimizar custos e garantir integração suave com o Google Kubernetes Engine (GKE).
Fonte: Sumário da transcrição do vídeo