Curso Greenplum GPLOAD

  • Database

Curso Greenplum GPLOAD

12 horas
Visão Geral

O Cso Greenplum GPLOAD foi elaborado para profissionais que desejam dominar a ferramenta gpload, utilizada para ingestão de dados em larga escala no Greenplum Database.

Baseada no gpfdist (Greenplum Parallel File Distribution), a ferramenta GPLOAD oferece alta performance e flexibilidade para carregar dados de diferentes formatos (CSV, texto, etc.), suportando transformações, paralelismo e integração com pipelines de dados.

Durante o curso, os participantes aprenderão a configurar, executar e monitorar cargas de dados com GPLOAD, explorando desde cenários básicos até boas práticas em ambientes críticos de Data Warehouse e Big Data.

Objetivo

Após realizar este curso Greenplum – GPLOAD, você será capaz de:

  • Compreender a arquitetura do GPLOAD e sua relação com o gpfdist.
  • Configurar e executar cargas paralelas de dados no Greenplum.
  • Utilizar arquivos YAML para definir tarefas de ingestão.
  • Monitorar, validar e otimizar processos de carga.
  • Integrar GPLOAD a pipelines de ETL e orquestradores.
Publico Alvo
  • Administradores de Banco de Dados (DBAs) em Greenplum.
  • Engenheiros e Arquitetos de Dados.
  • Analistas de Dados que trabalham com ingestão em larga escala.
  • Desenvolvedores que constroem pipelines de ETL/ELT em ambientes analíticos.
Pre-Requisitos
  • Conhecimento intermediário em SQL.
  • Familiaridade com PostgreSQL ou Greenplum.
  • Noções de ingestão de dados e formatos de arquivo (CSV, TXT, JSON).
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao GPLOAD

  1. Conceito de ingestão paralela no Greenplum.
  2. Diferença entre COPY, gpfdist e gpload.
  3. Casos de uso típicos do GPLOAD.

Módulo 2: Arquitetura do GPLOAD

  1. Como o GPLOAD funciona internamente.
  2. Papel do gpfdist no processo de ingestão.
  3. Fluxo de carregamento de dados.

Módulo 3: Configuração e Execução do GPLOAD

  1. Estrutura de um arquivo de configuração YAML.
  2. Principais parâmetros: SOURCE, COLUMNS, FORMAT, LOGS, DATABASE.
  3. Execução de cargas simples com gpload.
  4. Exercícios práticos: carregamento de arquivos CSV e TXT.

Módulo 4: Funcionalidades Avançadas

  1. Definição de delimitadores, aspas e encoding.
  2. Tratamento de valores nulos e erros de formatação.
  3. Uso de TRANSFORMATIONS para pré-processar dados.
  4. Cargas incrementais com UPDATE e MERGE.

Módulo 5: Monitoramento e Logs

  1. Diretórios e arquivos de log do GPLOAD.
  2. Interpretando mensagens de erro.
  3. Boas práticas de monitoramento.

Módulo 6: Otimização e Performance

  1. Estratégias para lidar com grandes volumes de dados.
  2. Balanceamento de carga com múltiplos gpfdist.
  3. Impacto de particionamento e índices.
  4. Boas práticas de tunning em ingestão massiva.

Módulo 7: Integração com Pipelines

  1. Automatizando cargas com GPLOAD.
  2. Integração com ferramentas de ETL.
  3. Uso do GPLOAD em orquestradores como Airflow e Argo.

Módulo 8: Laboratórios Práticos

  1. Configuração completa de um job GPLOAD.
  2. Carga de dados massivos com gpfdist distribuído.
  3. Transformação de dados durante a ingestão.
  4. Simulação de um pipeline real com múltiplos arquivos.
TENHO INTERESSE

Cursos Relacionados

Curso Oracle Database 12c Admin Install Upgrade

32 horas

Curso Oracle Database 12c Administração I

32 horas

Curso Oracle 12c Banco de Dados Introdução ao SQL

28 Horas

Curso Oracle Fundamentos de Big Data

32 horas

Curso Oracle Database 12c Performance Tuning

24 Horas

Curso Oracle 12c 10 Programa com PL/SQL

32 horas

Curso Oclacle 12c RAC – Administração de Banco de Dados

32 horas

Curso Oracle 12c Banco de Dados PL/SQL Advanced

24 horas

Curso Oracle 18c Database Backup and Recovery Workshop

32 horas