Visão Geral
O Curso Greenplum – Tabelas Externas Baseadas em Arquivos foi desenvolvido para profissionais que precisam integrar dados externos em pipelines analíticos, aproveitando a capacidade massivamente paralela do Greenplum.
As tabelas externas permitem consultar dados diretamente de arquivos sem carregá-los para dentro do banco, reduzindo custos de armazenamento e acelerando processos de ingestão e análise. O curso aborda desde a criação e configuração até o uso avançado de formatos como CSV, JSON, Avro e Parquet, além de boas práticas de performance, segurança e integração com HDFS.
Objetivo
Após realizar este Curso Greenplum – Tabelas Externas Baseadas em Arquivos, você será capaz de:
- Compreender o funcionamento e a arquitetura das tabelas externas no Greenplum.
- Criar e gerenciar tabelas externas paralelas para diferentes formatos de arquivos.
- Integrar dados externos armazenados em sistemas de arquivos locais ou distribuídos (HDFS).
- Otimizar o uso de tabelas externas em análises de grandes volumes de dados.
- Aplicar boas práticas de segurança, governança e desempenho.
Publico Alvo
- Administradores de Banco de Dados em ambientes MPP.
- Engenheiros e Arquitetos de Dados que trabalham com Data Lakes.
- Analistas de Dados que precisam integrar dados massivos com Greenplum.
- Desenvolvedores que constroem pipelines de ingestão de dados.
Pre-Requisitos
- Conhecimento intermediário em SQL.
- Familiaridade com PostgreSQL ou outro banco relacional.
- Noções de Big Data e formatos de arquivos estruturados (CSV, JSON, Parquet).
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Módulo 1: Introdução às Tabelas Externas no Greenplum
- Conceito e arquitetura do Greenplum MPP.
- Diferenças entre tabelas internas, externas e externas legíveis/escrevíveis.
- Casos de uso em Data Warehouses e Data Lakes.
Módulo 2: Criação de Tabelas Externas
- Sintaxe do CREATE EXTERNAL TABLE no Greenplum.
- Tabelas externas legíveis (readable) e graváveis (writable).
- Localização dos arquivos e definições de formato.
- Exercícios práticos com tabelas externas simples.
Módulo 3: Trabalhando com Diferentes Formatos de Arquivos
- CSV e texto delimitado: opções de parsing.
- JSON simples e estruturado.
- Formatos otimizados: Avro, ORC e Parquet.
- Exercícios práticos de leitura em diferentes formatos.
Módulo 4: Tabelas Externas e HDFS
- Integração nativa do Greenplum com Hadoop.
- Definição de tabelas externas com localização em HDFS.
- Configuração de permissões e conectividade.
- Casos práticos: ingestão de dados massivos do HDFS para Greenplum.
Módulo 5: Performance e Otimização
- Execução paralela de tabelas externas no Greenplum.
- Impacto do tamanho e do particionamento de arquivos.
- Estatísticas e tuning para consultas mais rápidas.
- Comparação entre ingestão via tabelas externas vs. carregamento direto (gpfdist, COPY).
Módulo 6: Ferramentas e Automação
- Uso do gpfdist para leitura distribuída de arquivos.
- Automação da ingestão de dados externos.
- Integração com pipelines de ETL e orquestradores (Airflow, Argo).
Módulo 7: Laboratórios Práticos
- Criação de tabelas externas legíveis e graváveis.
- Consultas analíticas em CSV, JSON e Parquet.
- Integração de tabelas externas com HDFS.
- Ingestão de grandes volumes de dados simulando cenários reais.
TENHO INTERESSE