Arquitetura
4
Etapa 4 de 8

Treinamento

Azure Machine Learning é o coração do treinamento. Permite rastrear experimentos, comparar métricas, fazer tuning de hiperparâmetros e provisionar compute (CPU/GPU) sob demanda — tudo de forma versionada e reprodutível.

Serviços Azure envolvidos

Azure Machine Learning

Workspace unificado para experimentos, jobs, pipelines e registry.

AML Compute Clusters

Clusters elásticos CPU/GPU que escalam de 0 a N nós conforme demanda.

HyperDrive

Tuning paralelo de hiperparâmetros com early termination policies.

Pontos-chave

  • Notebooks para exploração, scripts versionados para produção.
  • Registre métricas, parâmetros e artefatos de cada run automaticamente.
  • Use MLflow (nativo no AML) como camada de tracking padrão.

Melhores práticas

  • Defina ambientes (Conda/Docker) versionados — nunca dependa do 'works on my machine'.
  • Pin de versões de bibliotecas críticas (numpy, sklearn, torch).
  • Use spot/low-priority VMs para reduzir custo em experimentos exploratórios.