Curso Databricks Advanced Data Engineering with Databricks
16 horasVisão Geral
Neste Curso Databricks Advanced Data Engineering with Databricks, os alunos aproveitarão seu conhecimento existente de Apache Spark, Structured Streaming e Delta Lake para desbloquear todo o potencial do data lakehouse, utilizando o conjunto de ferramentas fornecido pelo Databricks. Este Curso Databricks Advanced Data Engineering with Databricks dá grande ênfase aos projetos que favorecem o processamento incremental de dados, permitindo que sistemas otimizados ingeram e analisem continuamente dados cada vez maiores. Ao projetar cargas de trabalho que aproveitam otimizações de plataforma integradas, os engenheiros de dados podem reduzir a carga de manutenção de código e emergências de plantão e adaptar rapidamente o código de produção a novas demandas com refatoração ou tempo de inatividade mínimos.
Objetivo
Após realizar este Curso Databricks Advanced Data Engineering with Databricks com êxito você será capaz de:
- Projete bancos de dados e pipelines otimizados para a plataforma Databricks Lakehouse
- Implementar processamento de dados incremental eficiente para validar e enriquecer dados que orientam decisões de negócios e aplicações
- Aproveite os recursos nativos do Databricks para gerenciar o acesso a dados confidenciais e atender às solicitações do direito de ser esquecido
- Gerencie solução de problemas de erros, promoção de código, orquestração de tarefas e monitoramento de trabalhos de produção usando ferramentas Databricks
Pre-Requisitos
- Experiência no uso de APIs PySpark para realizar transformações avançadas de dados
- Familiaridade na implementação de classes com Python
- Experiência no uso de SQL em implementações de data warehouse de produção ou data lake
- Experiência trabalhando em notebooks Databricks e configurando clusters
- Familiaridade com a criação e manipulação de dados em tabelas Delta Lake com SQL
Materiais
Inglês + Exercícios + Lab PraticoConteúdo Programatico
- The Lakehouse Architecture
- Optimizing Data Storage
- Understanding Delta Lake Transactions
- Delta Lake Isolation with Optimistic Concurrency
- Streaming Design Patterns
- Clone for Development and Data Backup
- Auto Loader and Bronze Ingestion Patterns
- Streaming Deduplication and Quality Enforcement
- Slowly Changing Dimensions
- Streaming Joins and Statefulness
- Stored and Materialized Views
- Storing Data Securely
- Granting Privileged Access to PII
- Deleting Data in the Lakehouse
- Orchestration and Scheduling with Multi-Task Jobs
- Monitoring, Logging, and Handling Errors
- Promoting Code with Databricks Repos
- Programmatic Platform Interactions (Databricks CLI and REST API)
- Managing Costs and Latency with Streaming Workloads