Curso Databricks Data Engineering Advanced
16HVisão Geral
Neste Curso Databricks Data Engineering Advanced, os alunos aproveitarão seu conhecimento existente do Apache Spark, do Structured Streaming e do Delta Lake para liberar todo o potencial do data lakehouse, utilizando o conjunto de ferramentas fornecido pelo Databricks. Este curso enfatiza fortemente os designs que favorecem o processamento de dados incremental, permitindo que os sistemas otimizados ingeram e analisem continuamente dados em constante crescimento. Ao projetar cargas de trabalho que aproveitam otimizações de plataforma integradas, os engenheiros de dados podem reduzir a carga de manutenção de código e emergências de plantão e adaptar rapidamente o código de produção a novas demandas com refatoração ou tempo de inatividade mínimos.
Nota:
Para quem deseja fazer o exame no futuro:
- Os tópicos deste curso devem ser dominados antes de tentar o exame Databricks Certified Data Engineer Professional .
Objetivo
Após realizar este Curso Databricks Data Engineering Advanced, você será capaz de:
- Projete bancos de dados e pipelines otimizados para a plataforma Databricks Lakehouse
- Implemente o processamento de dados incremental eficiente para validar e enriquecer os dados que orientam as decisões de negócios e os aplicativos
- Aproveite os recursos nativos do Databricks para gerenciar o acesso a dados confidenciais e atender a solicitações que podem ser esquecidas
- Gerencie solução de problemas de erros, promoção de código, orquestração de tarefas e monitoramento de trabalhos de produção usando ferramentas Databricks
Pre-Requisitos
- Experiência no uso de APIs PySpark para realizar transformações avançadas de dados
- Familiaridade na implementação de classes com Python
- Experiência usando SQL em implementações de data warehouse ou data lake de produção
- Experiência de trabalho em notebooks Databricks e configuração de clusters
- Familiaridade com a criação e manipulação de dados em tabelas do Delta Lake com SQL
- Capacidade de usar o Spark Structured Streaming para ler incrementalmente de uma tabela Delta
Materiais
Inglês + Exercícios + Lab PraticoConteúdo Programatico
Module I
- The Lakehouse Architecture
- Optimizing Data Storage
- Understanding Delta Lake Transactions
- Delta Lake Isolation with Optimistic Concurrency
- Streaming Design Patterns
- Clone for Development and Data Backup
- Auto Loader and Bronze Ingestion Patterns
- Streaming Deduplication and Quality Enforcement
- Slowly Changing Dimensions
- Streaming Joins and Statefulness
Module II
- Stored and Materialized Views
- Storing Data Securely
- Granting Privileged Access to PII
- Deleting Data in the Lakehouse
- Orchestration and Scheduling with Multi-Task Jobs
- Monitoring, Logging, and Handling Errors
- Promoting Code with Databricks Repos
- Programmatic Platform Interactions (Databricks CLI and REST API)
- Managing Costs and Latency with Streaming Workloads