Curso Data Warehousing With Greenplum

  • Database

Curso Data Warehousing With Greenplum

24 horas
Visão Geral

Este Curso Data Warehousing With Greenplum, aprofundado é projetado para arquitetos de dados, engenheiros de dados, DBAs, analistas de BI e cientistas de dados que buscam dominar a implementação e otimização de soluções de Data Warehousing utilizando o Greenplum Database. Do ponto de vista técnico, você aprenderá a aplicar princípios fundamentais de Data Warehousing (modelagem dimensional, ETL/ELT) no contexto da arquitetura MPP (Massively Parallel Processing) do Greenplum. Cobriremos tópicos cruciais como estratégias avançadas de modelagem de dados para desempenho, técnicas eficientes de carregamento de dados (incluindo dados em batch e streaming), otimização de consultas complexas e gerenciamento do ciclo de vida dos dados. O curso enfatizará as melhores práticas para extrair o máximo proveito da capacidade de processamento paralelo do Greenplum para construir Data Warehouses escaláveis e de alta performance.

Curso Data Warehousing With Greenplum, um Data Warehouse robusto é a espinha dorsal da tomada de decisões baseada em dados para qualquer empresa. O domínio do Greenplum para esse fim significa que as organizações podem processar e analisar volumes massivos de dados rapidamente, obtendo insights que impulsionam a inovação e a competitividade. A capacidade de projetar, construir e otimizar um Data Warehouse em escala Petabyte com Greenplum permite que as empresas reduzam custos operacionais, melhorem a qualidade e a governança dos dados, e acelerem a entrega de relatórios e análises críticas. Profissionais com essa expertise são indispensáveis para transformar dados brutos em inteligência de negócios acionável.

Objetivo

Ao final do Curso Data Warehousing com Greenplum, você será capaz de:

  • Revisar os conceitos fundamentais de Data Warehousing (Dimensional Modeling, Star Schema, Snowflake Schema).
  • Projetar e implementar modelos de dados dimensionais otimizados para a arquitetura MPP do Greenplum.
  • Aplicar estratégias avançadas de distribuição de dados e particionamento para tabelas de fato e dimensão.
  • Dominar técnicas eficientes de carregamento de dados (batch e micro-batch) para o Greenplum.
  • Utilizar ferramentas e métodos para extrair, transformar e carregar (ETL/ELT) dados no Greenplum.
  • Otimizar o desempenho de consultas complexas e identificar gargalos em um ambiente Greenplum.
  • Gerenciar o ciclo de vida dos dados, incluindo compressão e arquivamento.
  • Utilizar recursos avançados do Greenplum para melhoria de desempenho (resumo, views materializadas).
  • Aplicar as melhores práticas de design e manutenção para um Data Warehouse em Greenplum.
  • Compreender os desafios de Data Warehousing em larga escala e como o Greenplum os aborda.
Publico Alvo
  • Arquitetos de Dados: Para projetar e implementar modelos de Data Warehouse no Greenplum.
  • Engenheiros de Dados: Que desenvolvem e otimizam pipelines de ETL/ELT para carregar e transformar dados no Greenplum.
  • DBAs (Administradores de Banco de Dados): Que gerenciam e otimizam a performance de ambientes Greenplum de Data Warehouse.
  • Analistas de BI: Que criam relatórios e dashboards e precisam entender a estrutura e o desempenho do DW.
  • Cientistas de Dados: Que interagem com grandes conjuntos de dados para modelagem e análise preditiva.
  • Qualquer profissional de dados com experiência em SQL e interesse em Data Warehousing distribuído.
Pre-Requisitos
  • Conhecimento sólido de SQL (SELECT, JOINs, GROUP BY, DDL, DML).
  • Conclusão do curso "Greenplum: Arquitetura" ou conhecimento equivalente sobre a arquitetura MPP do Greenplum (Master, Segments, Interconnect, distribuição de dados).
  • Noções básicas de modelagem de dados relacional e conceitos de Data Warehousing (Fatos, Dimensões, Star Schema).
  • Familiaridade com o ambiente Linux e ferramentas de linha de comando.
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

Módulo 1: Revisão de Data Warehousing e Modelagem Dimensional para Greenplum (4 horas)

  • 1.1. Fundamentos de Data Warehousing:
    • Definição, características e propósito de um Data Warehouse.
    • Diferenças entre OLTP e OLAP.
    • Ciclo de vida do DW: Staging, DW, Data Marts.
  • 1.2. Modelagem Dimensional:
    • Star Schema vs. Snowflake Schema.
    • Tabelas de Fato: Tipos (transacionais, snapshot, acumulativos) e granularidade.
    • Tabelas de Dimensão: Tipos (SCD Type 1, 2, 3), hierarquias, atributos.
    • Chaves (surrogate keys, natural keys).
  • 1.3. Otimizando Modelos para MPP:
    • Como a arquitetura MPP do Greenplum influencia o design do modelo dimensional.
    • Considerações sobre chaves de distribuição para tabelas de fato e dimensão.
    • Estratégias para tabelas de dimensão grandes e pequenas (replicated tables).
  • Prática: Projetar um modelo dimensional simples (Star Schema) para um caso de uso específico. Discutir as melhores chaves de distribuição para cada tabela no contexto do Greenplum.

Módulo 2: Estratégias Avançadas de Tabela e Otimização de Armazenamento (6 horas)

  • 2.1. Otimização de Chaves de Distribuição:
    • Revisão aprofundada da distribuição Hash vs. Random.
    • Como escolher a chave de distribuição ideal para tabelas de fato (alta cardinalidade, unificação de dados).
    • Impacto da distribuição em JOINs, GROUP BY e desempenho geral.
    • Detectando e mitigando o data skew.
  • 2.2. Particionamento Avançado:
    • Particionamento por Range e List: casos de uso.
    • Particionamento multinível.
    • Operações de anexação e troca de partições (ALTER TABLE ... EXCHANGE PARTITION).
    • TRUNCATE e DROP de partições para gerenciamento do ciclo de vida dos dados.
  • 2.3. Compressão de Dados e Armazenamento Colunar:
    • Revisão do armazenamento colunar (APPENDONLY=true WITH (ORIENTATION=COLUMN)).
    • Estratégias de compressão (Zlib, Zstd, RLE, etc.).
    • Impacto da compressão no espaço em disco e no desempenho de leitura/escrita.
  • Prática: Criar tabelas de fato e dimensão com chaves de distribuição e particionamento otimizados. Experimentar diferentes níveis de compressão e observar o impacto.

Módulo 3: Carregamento de Dados (ETL/ELT) no Greenplum (6 horas)

  • 3.1. Visão Geral das Estratégias de Carregamento:
    • Batch loading vs. Micro-batching vs. Streaming.
    • INSERT, COPY, gpload, PXF.
  • 3.2. Carregamento com gpload:
    • Ferramenta de carregamento de alta performance para o Greenplum.
    • Sintaxe básica e opções de configuração (YAML control file).
    • Carregamento de arquivos planos (CSV, TXT) e compactados.
    • Gerenciamento de erros e transformações básicas durante o carregamento.
  • 3.3. External Tables e PXF (Platform Extension Framework):
    • Carregando dados de fontes externas (HDFS, S3, Azure Blob Storage, GCS).
    • Configuração do PXF e uso de profiles.
    • Consulta de dados externos e carregamento via CREATE TABLE AS SELECT ... FROM external_table.
  • 3.4. Estratégias de ELT (Extract, Load, Transform):
    • Por que ELT no Greenplum?
    • Utilizando MERGE INTO para upserts e sincronização de dados.
    • Construção de pipelines de transformação SQL para DW.
  • Prática: Utilizar gpload para carregar dados em massa. Configurar e consultar dados via PXF de um "bucket" simulado. Implementar um processo ELT com MERGE INTO para atualizar uma tabela de fato.

Módulo 4: Otimização de Consultas e Gerenciamento do Ciclo de Vida (8 horas)

  • 4.1. Otimização Avançada de Consultas:
    • Revisão de EXPLAIN e EXPLAIN ANALYZE.
    • Identificação de data movement excessivo (redistribute, broadcast, gather).
    • Otimizando JOINs complexos em ambiente MPP.
    • Uso de SET variáveis de sessão para influenciar o otimizador.
    • Análise e otimização de consultas em tempo real.
  • 4.2. Workload Management (WLM) no Greenplum:
    • Introdução ao conceito de WLM para gerenciamento de recursos.
    • Filas de recursos (Resource Queues) para isolamento de carga de trabalho.
    • Limites de memória e concorrência para diferentes tipos de consultas.
  • 4.3. Views Materializadas (MATERIALIZED VIEW):
    • Otimizando consultas complexas e agregadas com MVs.
    • Criação e gerenciamento de MVs.
    • Estratégias de refresh de MVs (REFRESH MATERIALIZED VIEW).
  • 4.4. Gerenciamento do Ciclo de Vida dos Dados (DLM):
    • Estratégias de arquivamento e tiering de dados (particionamento, external tables).
    • Remoção de dados antigos de forma eficiente.
  • 4.5. Monitoramento e Troubleshooting:
    • Métricas chave de desempenho para o Data Warehouse.
    • Identificação de gargalos (disco, CPU, rede).
    • Troubleshooting de consultas lentas e problemas de carregamento.
  • Prática: Otimizar consultas com base em planos de execução. Criar e gerenciar Materialized Views. Configurar e testar Resource Queues (se o ambiente permitir). Discutir e planejar uma estratégia de DLM para um cenário específico.
TENHO INTERESSE

Cursos Relacionados

Curso Oracle Database 12c Admin Install Upgrade

32 horas

Curso Oracle Database 12c Administração I

32 horas

Curso Oracle 12c Banco de Dados Introdução ao SQL

28 Horas

Curso Oracle Fundamentos de Big Data

32 horas

Curso Oracle Database 12c Performance Tuning

24 Horas

Curso Oracle 12c 10 Programa com PL/SQL

32 horas

Curso Oclacle 12c RAC – Administração de Banco de Dados

32 horas

Curso Oracle 12c Banco de Dados PL/SQL Advanced

24 horas

Curso Oracle 18c Database Backup and Recovery Workshop

32 horas