Curso Data Engineering with Databricks

  • DevOps | CI | CD | Kubernetes | Web3

Curso Data Engineering with Databricks

32 horas Curso Pratico
Visão Geral

O Curso Data Engineering with Databricks oferece uma compreensão completa sobre como construir, otimizar e gerenciar pipelines de dados utilizando a plataforma Databricks Unified Analytics. Os participantes aprenderão a usar Delta Lake, Spark SQL e os recursos nativos do Databricks para ingerir, processar e analisar dados em larga escala.
Além disso, o curso explora tópicos avançados como processamento incremental de dados, arquiteturas multi-hop e produção de dashboards, capacitando os engenheiros de dados a entregarem soluções corporativas de alto desempenho.

Objetivo

Após realizar o Curso Data Engineering with Databricks, você será capaz de:

  • Configurar e administrar workspaces e serviços do Databricks.
  • Trabalhar com Delta Lake para garantir confiabilidade e desempenho em pipelines de dados.
  • Criar estruturas relacionais e realizar operações ETL com Spark SQL.
  • Projetar e implementar arquiteturas de processamento incremental e multi-hop.
  • Orquestrar tarefas e gerenciar jobs dentro do Databricks.
  • Desenvolver, gerenciar e proteger dashboards e consultas em ambientes de produção.
Publico Alvo

Quem deve participar desse curso

Este curso é indicado para profissionais que desejam dominar o uso do Databricks na criação e otimização de pipelines de dados escaláveis e de alto desempenho. É altamente recomendado para:

  • Engenheiros de Dados (Data Engineers) que desejam aprofundar suas habilidades na ingestão, transformação e processamento de dados em larga escala utilizando Spark SQL e Delta Lake.
  • Desenvolvedores ETL e profissionais de integração de dados que buscam modernizar seus fluxos de trabalho em uma plataforma unificada e colaborativa.
  • Analistas e Cientistas de Dados que precisam compreender a estrutura dos dados e as melhores práticas de processamento dentro do Databricks.
  • Profissionais de Business Intelligence (BI) interessados em explorar pipelines de dados automatizados e criar dashboards interativos e consultas otimizadas.
  • Engenheiros de Software e Arquitetos de Soluções que atuam com nuvem (Azure, AWS ou GCP) e desejam integrar soluções de engenharia de dados em ambientes corporativos.
  • Administradores e Líderes Técnicos que buscam compreender como projetar, gerenciar e operacionalizar pipelines de dados robustos e seguros.
Pre-Requisitos
  • Conhecimento básico de SQL e bancos de dados relacionais.
  • Familiaridade com programação em Python (opcional, mas recomendada).
  • Noções gerais de engenharia de dados e plataformas em nuvem (Azure, AWS ou GCP)
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Databricks Workspace and Services

  1. Introduction to Databricks Architecture
  2. Understanding Databricks Workspaces
  3. Databricks Runtime and Clusters
  4. Managing Users and Groups
  5. Navigating the Databricks UI
  6. Introduction to Databricks Utilities and Repos

Module 2: Delta Lake

  1. Overview of Delta Lake
  2. The Delta Architecture and ACID Transactions
  3. Schema Enforcement and Evolution
  4. Time Travel and Data Versioning
  5. Optimizing Delta Tables (VACUUM, Z-ORDER, OPTIMIZE)
  6. Integrating Delta Lake with BI and ML tools

Module 3: Relational Entities on Databricks

  1. Creating Databases, Tables, and Views
  2. Managed vs. External Tables
  3. Partitioning and Bucketing Strategies
  4. Query Optimization Techniques
  5. Working with Temporary and Global Views
  6. Best Practices for Data Modeling in Databricks

Module 4: ETL With Spark SQL

  1. Introduction to ETL Concepts
  2. Reading and Writing Data with Spark SQL
  3. Using DataFrames and Datasets
  4. Transformations and Actions in Spark
  5. Implementing Joins, Aggregations, and Filters
  6. Performance Tuning and Caching Strategies

Module 5: OPTIONAL - Python for Spark SQL

  1. Python Integration in Databricks Notebooks
  2. Using PySpark for Data Transformations
  3. Working with Spark DataFrames in Python
  4. UDFs (User Defined Functions) in PySpark
  5. Managing Dependencies with Databricks Libraries

Module 6: Incremental Data Processing

  1. Understanding Incremental vs. Batch Processing
  2. Implementing Change Data Capture (CDC)
  3. Designing Incremental Pipelines using Delta Lake
  4. Using MERGE for Upserts and Deletes
  5. Scheduling Incremental Jobs

Module 7: Multi-Hop Architecture

  1. Introduction to the Bronze, Silver, and Gold Layers
  2. Designing a Multi-Hop Data Flow
  3. Implementing Data Quality Checks
  4. Data Lineage and Traceability
  5. Performance Optimization in Multi-Hop Architectures

Module 8: Delta Live Tables

  1. Overview of Delta Live Tables (DLT)
  2. Building Reliable and Declarative Data Pipelines
  3. Managing Dependencies and Auto-Scaling
  4. Monitoring and Debugging DLT Pipelines
  5. Integrating DLT with Orchestration Tools

Module 9: Task Orchestration with Jobs

  1. Introduction to Databricks Jobs
  2. Configuring and Scheduling Jobs
  3. Job Clusters vs. Interactive Clusters
  4. Multi-Task Job Pipelines
  5. Error Handling and Retry Strategies
  6. Integration with External Orchestration Systems

Module 10: Running a DBSQL Query

  1. Introduction to Databricks SQL (DBSQL)
  2. Creating and Managing SQL Warehouses
  3. Writing and Executing SQL Queries in DBSQL
  4. Query Optimization and Execution Plans
  5. Using Query History and Query Profiles

Module 11: Managing Permissions

  1. Access Control in Databricks
  2. Workspace, Table, and Cluster Permissions
  3. Unity Catalog and Data Governance
  4. Managing Tokens and Secrets
  5. Auditing and Monitoring Access

Module 12: Productionalizing Dashboards and Queries in DBSQL

  1. Creating Dashboards in Databricks SQL
  2. Managing Alerts and Scheduled Queries
  3. Embedding and Sharing Dashboards
  4. Best Practices for Dashboard Performance
  5. Production Deployment and Maintenance
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h