Curso Databricks - Data Engineering with Databricks
16HVisão Geral
Curso Databricks - Data Engineering with Databricks, Profissionais de dados de todas as esferas da vida se beneficiarão desta introdução abrangente aos componentes da Databricks Lakehouse Platform que suportam diretamente a colocação de pipelines ETL em produção. Você aproveitará o SQL e o Python para definir e agendar pipelines que processam de forma incremental novos dados de uma variedade de fontes de dados para potencializar aplicativos analíticos e painéis no Lakehouse. Este curso oferece instruções práticas em Databricks Data Science & Engineering Workspace, Databricks SQL, Delta Live Tables, Databricks Repos, Databricks Task Orchestration e Unity Catalog.
NOTA:
Para quem deseja fazer o exame no futuro:
- Este curso irá prepará-lo para fazer o exame Databricks Certified Data Engineer Associate .
Objetivo
Após realizar este Curso Databricks - Data Engineering with Databricks, você será capaz de:
- Aproveite a plataforma Databricks Lakehouse para desempenhar as principais responsabilidades de desenvolvimento de pipeline de dados
- Use SQL e Python para escrever pipelines de dados de produção para extrair, transformar e carregar dados em tabelas e exibições no Lakehouse
- Simplifique a ingestão de dados e a propagação de alterações incrementais usando recursos e sintaxe nativos do Databricks, incluindo Delta Live Tables
- Orquestre pipelines de produção para fornecer novos resultados para análises e painéis ad-hoc
Pre-Requisitos
- Conhecimento básico da sintaxe de consulta SQL, incluindo escrever consultas usando SELECT, WHERE, GROUP BY, ORDER BY, LIMIT e JOIN
- Conhecimento básico de instruções SQL DDL para criar, alterar e descartar bancos de dados e tabelas
- Conhecimento básico de instruções SQL DML, incluindo DELETE, INSERT, UPDATE e MERGE
- Experiência ou conhecimento de práticas de engenharia de dados em plataformas de nuvem, incluindo recursos de nuvem, como máquinas virtuais, armazenamento de objetos, gerenciamento de identidade e metastores
- Familiaridade básica com variáveis, funções e fluxo de controle do Python (preferencial)
Materiais
Português/Inglês + Exercícios + Lab PraticoConteúdo Programatico
Module I
- Delta Lake
- Relational entities on Databricks
- ETL with Spark SQL
- Just enough Python for Spark SQL
- Incremental data processing with Structured Streaming and Auto Loader
Module II
- Medallion architecture in the data lakehouse
- Delta Live Tables
- Task orchestration with Databricks Jobs
- Databricks SQL
- Managing Permissions in the lakehouse
- Productionizing dashboards and queries on Databricks SQL