Etapa 3 de 8

Preparação de Dados

Modelos de ML são tão bons quanto os dados que os alimentam. Azure Databricks (Spark) e Azure Synapse Analytics fornecem o motor distribuído para transformar dados brutos em features prontas para treinamento.

Serviços Azure envolvidos

Azure Databricks

Plataforma Spark gerenciada com notebooks colaborativos e Delta Lake.

Azure Synapse Analytics

Data warehouse e pools SQL/Spark unificados para analytics em larga escala.

Azure ML Data Prep

SDK e Designer visual para pipelines de preparação reproduzíveis.

Pontos-chave

› Materialize features em uma Feature Store (ex.: Databricks Feature Store).
› Documente cada transformação — reprodutibilidade é regra, não exceção.
› Valide qualidade dos dados (Great Expectations, Deequ) antes do treino.

Melhores práticas

★ Use Delta Lake para ACID, time-travel e schema enforcement.
★ Separe pipelines de dados (DataOps) dos pipelines de modelo (MLOps).
★ Cache datasets de treino imutáveis para reprodutibilidade exata.