3
Etapa 3 de 8
Preparação de Dados
Modelos de ML são tão bons quanto os dados que os alimentam. Azure Databricks (Spark) e Azure Synapse Analytics fornecem o motor distribuído para transformar dados brutos em features prontas para treinamento.
Serviços Azure envolvidos
Azure Databricks
Plataforma Spark gerenciada com notebooks colaborativos e Delta Lake.
Azure Synapse Analytics
Data warehouse e pools SQL/Spark unificados para analytics em larga escala.
Azure ML Data Prep
SDK e Designer visual para pipelines de preparação reproduzíveis.
Pontos-chave
- › Materialize features em uma Feature Store (ex.: Databricks Feature Store).
- › Documente cada transformação — reprodutibilidade é regra, não exceção.
- › Valide qualidade dos dados (Great Expectations, Deequ) antes do treino.
Melhores práticas
- ★ Use Delta Lake para ACID, time-travel e schema enforcement.
- ★ Separe pipelines de dados (DataOps) dos pipelines de modelo (MLOps).
- ★ Cache datasets de treino imutáveis para reprodutibilidade exata.