Arquitetura
3
Etapa 3 de 8

Preparação de Dados

Modelos de ML são tão bons quanto os dados que os alimentam. Azure Databricks (Spark) e Azure Synapse Analytics fornecem o motor distribuído para transformar dados brutos em features prontas para treinamento.

Serviços Azure envolvidos

Azure Databricks

Plataforma Spark gerenciada com notebooks colaborativos e Delta Lake.

Azure Synapse Analytics

Data warehouse e pools SQL/Spark unificados para analytics em larga escala.

Azure ML Data Prep

SDK e Designer visual para pipelines de preparação reproduzíveis.

Pontos-chave

  • Materialize features em uma Feature Store (ex.: Databricks Feature Store).
  • Documente cada transformação — reprodutibilidade é regra, não exceção.
  • Valide qualidade dos dados (Great Expectations, Deequ) antes do treino.

Melhores práticas

  • Use Delta Lake para ACID, time-travel e schema enforcement.
  • Separe pipelines de dados (DataOps) dos pipelines de modelo (MLOps).
  • Cache datasets de treino imutáveis para reprodutibilidade exata.