GPU Node Pools
Provisionamento e gerenciamento de nodes GPU no AKS para cargas de trabalho de ML/IA
KAITO: AI Model Inference
Faça deploy de LLMs no AKS com um único custom resource usando o Kubernetes AI Toolchain Operator
Model Inference Serving
LLM serving em produção no AKS -- KAITO, vLLM, TGI e estratégias de autoscaling
Guia de produção AI/ML
Execute cargas de trabalho de inferência AI no AKS em escala de produção: estratégia de node pool GPU, cache de modelos, autoscaling, controles de custo e servindo múltiplos modelos.