Projeto desenvolvido com foco em práticas de engenharia de dados corporativa, incluindo orquestração serverless, observabilidade operacional, governança de pipelines, data quality validation e troubleshooting operacional em arquitetura Lakehouse.
Senior Data Engineer · Platform Architect · Modernização · Lakehouse · PySpark · Azure · AWS · GCP · Databricks
Especialista em transformação e modernização de plataformas de dados — da identificação de limitações arquiteturais ao redesign completo em Lakehouse enterprise.
15+ anos construindo plataformas analíticas críticas com Azure Databricks, PySpark e Delta Lake, em ambientes regulatórios (BACEN) e projetos de IA aplicada.
Atuação hands-on com visão de arquitetura — governança, observabilidade, analytics readiness e AI-readiness como pilares de toda entrega.
Case estratégico em destaque
Identificação de limitações arquiteturais críticas em plataforma analítica legada baseada em FileStorage e condução do redesign completo para arquitetura Lakehouse moderna — governada, observável, escalável e pronta para Analytics & IA.
A plataforma original utilizava FileStorage como camada primária de dados, sem controle transacional, sem versionamento, sem rastreabilidade de cargas e sem governança de acesso. Pipelines frágeis, ausência de mecanismos de replay e dados não estruturados bloqueavam o consumo analítico e inviabilizavam workloads de Machine Learning. A decisão foi não otimizar o legado — redesenhar a plataforma.
✦ Fluxo arquitetural da plataforma modernizada
Pilares da plataforma
Bronze → Silver → Gold com Delta Lake ACID. Separação clara entre dados brutos, curados e semânticos. Time-travel e rollback nativos em todas as camadas.
Unity Catalog com RBAC granular, data lineage automatizado, auditoria de cargas via ingestion_log e rastreabilidade end-to-end de cada execução.
Quality log centralizado, pipeline execution monitoring, evidências operacionais documentadas e framework de troubleshooting para falhas rastreáveis.
Semantic layer analítica com views executivas para BI. Datasets curados e padronizados, prontos para consumo direto por times de Data Science e Analytics.
Datasets curados para treinamento, feature-ready e compatíveis com MLflow. Pipelines de preparação de dados orientados a workloads de Machine Learning e IA generativa.
Replay handling, deduplicação, grain validation e surrogate keys determinísticas. Orquestração DAG serverless ponta a ponta com Databricks Jobs — escalável sem overhead operacional.
Estrutura de pastas enterprise com notebooks numerados, orchestration YAML e data quality checks operacionais.
bronze_ingestion → silver_processing → gold_analytics → data_quality_validation → operational_evidence · 25 upstream / 11 downstream tables · Serverless compute.
Acesso direto ao workspace Databricks com notebooks executados, pipeline DAG e evidências operacionais. Requer autenticação no ambiente Databricks.
Projeto desenvolvido com foco em práticas de engenharia de dados corporativa, incluindo orquestração serverless, observabilidade operacional, governança de pipelines, data quality validation e troubleshooting operacional em arquitetura Lakehouse.
Competências técnicas
Principais entregas
Processamento de grandes volumes de dados com PySpark e arquitetura escalável.
Implementação Bronze → Silver → Gold com Delta Lake e governança Unity Catalog.
Preparação e organização de datasets para treinamento, NLP e visão computacional.
Airflow, Azure Data Factory, Databricks Workflows para pipelines confiáveis.
APIs, streaming, arquivos e sistemas legados em um só ecossistema.
Melhorias contínuas em cloud (Azure/AWS/GCP) e eficiência de processamento.
Redesign arquitetural de pipeline com Spark tuning, estratégia de particionamento, otimização de SQL, processamento incremental — eliminando reprocessamento full-scan em ambiente de produção.
Trajetória profissional
Construção e evolução de plataforma de dados Lakehouse com Azure Databricks. Responsável por pipelines críticos e governança.
Desenvolvimento de pipelines distribuídos batch e streaming em Google Cloud Platform, com foco em performance, escalabilidade e otimização de custos em workloads analíticos de alto volume.
Engenharia de plataforma de dados distribuída em ambiente AWS cloud-native para workloads analíticos críticos do setor financeiro — alto volume de eventos, processamento near real-time e requisitos rigorosos de rastreabilidade, auditabilidade e conformidade operacional.
Atuação em projeto de inteligência artificial aplicada à saúde, com foco em análise de imagens médicas e apoio à decisão clínica em ambiente hospitalar de alta criticidade.
Cases & entregas reais
Case técnico em destaque
Arquitetura Lakehouse corporativa ponta a ponta com governança operacional, quality framework, replay handling, semantic layer analítica e observabilidade de pipelines em Databricks.
Projeto desenvolvido com foco em práticas de engenharia de dados corporativa, incluindo orquestração serverless, observabilidade operacional, governança de pipelines, data quality validation e troubleshooting operacional em arquitetura Lakehouse.
Tecnologias & formação
Contato
Disponível para projetos de transformação de plataformas analíticas, arquitetura Lakehouse enterprise, modernização de dados legados e engenharia de plataforma em Azure/AWS/GCP. Entre em contato para uma conversa estratégica.
📍 Itupeva, SP — Remoto