A computação serverless permite que os desenvolvedores se concentrem no desenvolvimento de aplicativos e monitoramento de desempenho, enquanto o provedor de nuvem (no caso, a Google) lida com tarefas como escalabilidade automática e DevOps. Essa abordagem permite que os desenvolvedores acelerem seus workloads de IA sem se preocupar com a infraestrutura subjacente.
O Cloud Run é uma plataforma de computação serverless que pode escalar automaticamente suas instâncias com base no tráfego. Caso uma instância esteja ociosa por 15 minutos, o Cloud Run a desativa. É importante considerar fatores como o confort com contêineres e Kubernetes ao decidir se utilizar o Cloud Run ou outras plataformas.
Para iniciar com o Cloud Run, é recomendado criar um container image pré-criado no Cloud Console e explorar as funcionalidades de escalabilidade automática. Em seguida, é possível migrar para implantações baseadas em código, como descrito na documentação, e configurar o deploy contínuo a partir do repositório Git.
Além disso, Sarah apresentou três demos que demonstram diferentes contextos para o uso de computação serverless com o Vertex AI:
1. Um chatbot alimentado por Gemini utilizando um serviço do Cloud Run.
2. Um demo que utiliza chamadas de função para atualizar modelos de IA congelados no tempo com dados em tempo real.
3. Utilizar um trabalho do Cloud Run para executar um contêiner ou código até a conclusão com diferentes APIs do Vertex AI.
É recomendado que os desenvolvedores explorem os recursos adicionais, como os guias passo a passo nos codelabs, para aprender mais sobre como utilizar o Cloud Run e o Vertex AI de forma eficaz.