Curso Databricks SQL From the Experts
24 horasVisão Geral
O curso Databricks SQL From the Experts é um treinamento avançado que explora o Databricks SQL, uma interface baseada em SQL para análise de dados em larga escala na plataforma Databricks. Ele ensina como criar consultas otimizadas, construir dashboards interativos e gerenciar dados no Databricks Lakehouse, aproveitando a integração com o Apache Spark. Desenvolvido com insights de especialistas, o curso cobre desde fundamentos até técnicas avançadas, como desempenho de consultas e governança de dados. o Curso Databricks SQL From the Experts combina teoria, demonstrações práticas e exercícios reais para capacitar os alunos a utilizar o Databricks SQL de forma eficiente em projetos de big data e analytics.
Objetivo
Após realizar este Databricks SQL From the Experts, você será capaz de:
- Escrever e otimizar consultas SQL no Databricks para processar grandes volumes de dados.
- Criar dashboards interativos e visualizações usando o Databricks SQL Analytics.
- Gerenciar tabelas e dados no Databricks Lakehouse com Delta Lake.
- Integrar Databricks SQL com fluxos de trabalho de dados e ferramentas externas.
- Aplicar boas práticas de desempenho, segurança e governança recomendadas por especialistas.
Publico Alvo
- Analistas de dados que desejam usar SQL para análises em larga escala no Databricks.
- Cientistas de dados buscando integrar SQL com pipelines de dados no Lakehouse.
- Engenheiros de dados responsáveis por otimizar consultas e gerenciar ambientes Databricks.
- Profissionais de BI que migram de ferramentas tradicionais para o Databricks SQL.
- Gerentes de projetos de dados interessados em dashboards e relatórios no Databricks.
Pre-Requisitos
- Conhecimento básico de SQL (ex.: SELECT, JOIN, GROUP BY) é necessário.
- Familiaridade com o Databricks (ex.: notebooks, Spark) é recomendada.
- Experiência com conceitos de big data ou data lakes é desejável, mas não obrigatória.
Materiais
Inglês/Português/Lab PraticoConteúdo Programatico
Dia 1 – Módulo 1: Introdução ao Databricks SQL e Lakehouse
- Tópicos:
- O que é Databricks SQL? Visão geral e papel no ecossistema Databricks.
- Arquitetura do Databricks Lakehouse: unificando data warehouse e data lake.
- Benefícios do Databricks SQL: escalabilidade, integração com Spark, Delta Lake.
- Interface do Databricks SQL: editor de consultas, dashboards e endpoints.
- Comparação com ferramentas tradicionais de BI (ex.: Power BI, Tableau).
- Atividade Prática: Configurar um workspace no Databricks e executar uma consulta SQL simples.
Dia 1 – Módulo 2: Fundamentos de Consultas no Databricks SQL
- Tópicos:
- Conexão a fontes de dados: Delta Tables, arquivos (CSV, Parquet), bases externas.
- Escrevendo consultas SQL: SELECT, JOIN, WHERE, GROUP BY, ORDER BY.
- Funções SQL integradas: agregações, window functions, manipulação de datas.
- Criação e gerenciamento de tabelas: CREATE TABLE, INSERT, DROP.
- Introdução ao Delta Lake: versionamento e controle de dados.
- Atividade Prática: Criar uma tabela Delta e executar consultas com JOIN e agregações em um dataset fictício.
Dia 2 – Módulo 3: Visualizações e Dashboards com Databricks SQL
- Tópicos:
- Construção de visualizações: gráficos (barras, linhas), tabelas, mapas.
- Criação de dashboards: layout, filtros interativos, parâmetros.
- Compartilhamento de dashboards: permissões e publicação para equipes.
- Integração com ferramentas externas: exportação para BI ou APIs.
- Melhores práticas de design: clareza, usabilidade e performance.
- Atividade Prática: Criar um dashboard com três visualizações baseado em um dataset de vendas.
Dia 2 – Módulo 4: Otimização de Consultas e Desempenho
- Tópicos:
- Entendendo o plano de execução no Databricks SQL (EXPLAIN).
- Técnicas de otimização: particionamento, caching, índices Z-order.
- Uso de Spark SQL: como o Databricks SQL aproveita o Spark em segundo plano.
- Gerenciamento de recursos: ajuste de clusters para consultas SQL.
- Solução de problemas: consultas lentas, erros de memória, timeouts.
- Atividade Prática: Otimizar uma consulta complexa e analisar seu plano de execução.
Dia 3 – Módulo 5: Governança, Integração e Boas Práticas
- Tópicos:
- Governança de dados: permissões, Unity Catalog, controle de acesso.
- Integração com workflows: Databricks Jobs, notebooks e pipelines.
- Segurança: autenticação, criptografia, mascaramento de dados.
- Monitoramento e auditoria: logs de consultas, histórico de execução.
- Boas práticas de especialistas: organização de tabelas, versionamento, documentação.
- Casos reais: exemplos de uso do Databricks SQL em empresas (ex.: finanças, varejo).
- Conexão externa: uso de endpoints SQL para ferramentas como Power BI ou Tableau.
- Atividade Prática: Configurar permissões para uma tabela, integrar uma consulta com um Job e criar um relatório externo.