Curso Greenplum Tabela Externa Baeadas em Arquivos

  • DevOps | CI | CD | Kubernetes | Web3

Curso Greenplum Tabela Externa Baeadas em Arquivos

16 horas
Visão Geral

O Curso Greenplum – Tabelas Externas Baseadas em Arquivos foi desenvolvido para profissionais que precisam integrar dados externos em pipelines analíticos, aproveitando a capacidade massivamente paralela do Greenplum.

As tabelas externas permitem consultar dados diretamente de arquivos sem carregá-los para dentro do banco, reduzindo custos de armazenamento e acelerando processos de ingestão e análise. O curso aborda desde a criação e configuração até o uso avançado de formatos como CSV, JSON, Avro e Parquet, além de boas práticas de performance, segurança e integração com HDFS.

Objetivo

Após realizar este Curso Greenplum – Tabelas Externas Baseadas em Arquivos, você será capaz de:

  • Compreender o funcionamento e a arquitetura das tabelas externas no Greenplum.
  • Criar e gerenciar tabelas externas paralelas para diferentes formatos de arquivos.
  • Integrar dados externos armazenados em sistemas de arquivos locais ou distribuídos (HDFS).
  • Otimizar o uso de tabelas externas em análises de grandes volumes de dados.
  • Aplicar boas práticas de segurança, governança e desempenho.
Publico Alvo
  • Administradores de Banco de Dados em ambientes MPP.
  • Engenheiros e Arquitetos de Dados que trabalham com Data Lakes.
  • Analistas de Dados que precisam integrar dados massivos com Greenplum.
  • Desenvolvedores que constroem pipelines de ingestão de dados.
Pre-Requisitos
  • Conhecimento intermediário em SQL.
  • Familiaridade com PostgreSQL ou outro banco relacional.
  • Noções de Big Data e formatos de arquivos estruturados (CSV, JSON, Parquet).
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução às Tabelas Externas no Greenplum

  1. Conceito e arquitetura do Greenplum MPP.
  2. Diferenças entre tabelas internas, externas e externas legíveis/escrevíveis.
  3. Casos de uso em Data Warehouses e Data Lakes.

Módulo 2: Criação de Tabelas Externas

  1. Sintaxe do CREATE EXTERNAL TABLE no Greenplum.
  2. Tabelas externas legíveis (readable) e graváveis (writable).
  3. Localização dos arquivos e definições de formato.
  4. Exercícios práticos com tabelas externas simples.

Módulo 3: Trabalhando com Diferentes Formatos de Arquivos

  1. CSV e texto delimitado: opções de parsing.
  2. JSON simples e estruturado.
  3. Formatos otimizados: Avro, ORC e Parquet.
  4. Exercícios práticos de leitura em diferentes formatos.

Módulo 4: Tabelas Externas e HDFS

  1. Integração nativa do Greenplum com Hadoop.
  2. Definição de tabelas externas com localização em HDFS.
  3. Configuração de permissões e conectividade.
  4. Casos práticos: ingestão de dados massivos do HDFS para Greenplum.

Módulo 5: Performance e Otimização

  1. Execução paralela de tabelas externas no Greenplum.
  2. Impacto do tamanho e do particionamento de arquivos.
  3. Estatísticas e tuning para consultas mais rápidas.
  4. Comparação entre ingestão via tabelas externas vs. carregamento direto (gpfdist, COPY).

Módulo 6: Ferramentas e Automação

  1. Uso do gpfdist para leitura distribuída de arquivos.
  2. Automação da ingestão de dados externos.
  3. Integração com pipelines de ETL e orquestradores (Airflow, Argo).

Módulo 7: Laboratórios Práticos

  1. Criação de tabelas externas legíveis e graváveis.
  2. Consultas analíticas em CSV, JSON e Parquet.
  3. Integração de tabelas externas com HDFS.
  4. Ingestão de grandes volumes de dados simulando cenários reais.
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h