Curso Databricks Data Engineering Advanced

  • Tableau Data Visualization

Curso Databricks Data Engineering Advanced

16H
Visão Geral

Neste Curso Databricks Data Engineering Advanced, os alunos aproveitarão seu conhecimento existente do Apache Spark, do Structured Streaming e do Delta Lake para liberar todo o potencial do data lakehouse, utilizando o conjunto de ferramentas fornecido pelo Databricks. Este curso enfatiza fortemente os designs que favorecem o processamento de dados incremental, permitindo que os sistemas otimizados ingeram e analisem continuamente dados em constante crescimento. Ao projetar cargas de trabalho que aproveitam otimizações de plataforma integradas, os engenheiros de dados podem reduzir a carga de manutenção de código e emergências de plantão e adaptar rapidamente o código de produção a novas demandas com refatoração ou tempo de inatividade mínimos.

Nota:

Para quem deseja fazer o exame no futuro:

  • Os tópicos deste curso devem ser dominados antes de tentar o exame Databricks Certified Data Engineer Professional .
Objetivo

Após realizar este Curso Databricks Data Engineering Advanced, você será capaz de:

  • Projete bancos de dados e pipelines otimizados para a plataforma Databricks Lakehouse
  • Implemente o processamento de dados incremental eficiente para validar e enriquecer os dados que orientam as decisões de negócios e os aplicativos
  • Aproveite os recursos nativos do Databricks para gerenciar o acesso a dados confidenciais e atender a solicitações que podem ser esquecidas
  • Gerencie solução de problemas de erros, promoção de código, orquestração de tarefas e monitoramento de trabalhos de produção usando ferramentas Databricks
Pre-Requisitos
  • Experiência no uso de APIs PySpark para realizar transformações avançadas de dados
  • Familiaridade na implementação de classes com Python
  • Experiência usando SQL em implementações de data warehouse ou data lake de produção
  • Experiência de trabalho em notebooks Databricks e configuração de clusters
  • Familiaridade com a criação e manipulação de dados em tabelas do Delta Lake com SQL
  • Capacidade de usar o Spark Structured Streaming para ler incrementalmente de uma tabela Delta
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module I

  1. The Lakehouse Architecture
  2. Optimizing Data Storage
  3. Understanding Delta Lake Transactions
  4. Delta Lake Isolation with Optimistic Concurrency
  5. Streaming Design Patterns
  6. Clone for Development and Data Backup
  7. Auto Loader and Bronze Ingestion Patterns
  8. Streaming Deduplication and Quality Enforcement
  9. Slowly Changing Dimensions
  10. Streaming Joins and Statefulness

Module II

  1. Stored and Materialized Views
  2. Storing Data Securely
  3. Granting Privileged Access to PII
  4. Deleting Data in the Lakehouse
  5. Orchestration and Scheduling with Multi-Task Jobs
  6. Monitoring, Logging, and Handling Errors
  7. Promoting Code with Databricks Repos
  8. Programmatic Platform Interactions (Databricks CLI and REST API)
  9. Managing Costs and Latency with Streaming Workloads
TENHO INTERESSE

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

24 horas

Curso Análise de dados Excel Com Power BI - 20779B

16 horas

Curso Talend Data Integration Foundation

16 horas

Curso Talend Data Integration Advanced

16 horas

Curso Advanced Data Analysis and Dashboard Reporting

28 horas