Visão Geral
O Cso Greenplum GPLOAD foi elaborado para profissionais que desejam dominar a ferramenta gpload, utilizada para ingestão de dados em larga escala no Greenplum Database.
Baseada no gpfdist (Greenplum Parallel File Distribution), a ferramenta GPLOAD oferece alta performance e flexibilidade para carregar dados de diferentes formatos (CSV, texto, etc.), suportando transformações, paralelismo e integração com pipelines de dados.
Durante o curso, os participantes aprenderão a configurar, executar e monitorar cargas de dados com GPLOAD, explorando desde cenários básicos até boas práticas em ambientes críticos de Data Warehouse e Big Data.
Objetivo
Após realizar este curso Greenplum – GPLOAD, você será capaz de:
- Compreender a arquitetura do GPLOAD e sua relação com o gpfdist.
- Configurar e executar cargas paralelas de dados no Greenplum.
- Utilizar arquivos YAML para definir tarefas de ingestão.
- Monitorar, validar e otimizar processos de carga.
- Integrar GPLOAD a pipelines de ETL e orquestradores.
Publico Alvo
- Administradores de Banco de Dados (DBAs) em Greenplum.
- Engenheiros e Arquitetos de Dados.
- Analistas de Dados que trabalham com ingestão em larga escala.
- Desenvolvedores que constroem pipelines de ETL/ELT em ambientes analíticos.
Pre-Requisitos
- Conhecimento intermediário em SQL.
- Familiaridade com PostgreSQL ou Greenplum.
- Noções de ingestão de dados e formatos de arquivo (CSV, TXT, JSON).
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico
Módulo 1: Introdução ao GPLOAD
- Conceito de ingestão paralela no Greenplum.
- Diferença entre COPY, gpfdist e gpload.
- Casos de uso típicos do GPLOAD.
Módulo 2: Arquitetura do GPLOAD
- Como o GPLOAD funciona internamente.
- Papel do gpfdist no processo de ingestão.
- Fluxo de carregamento de dados.
Módulo 3: Configuração e Execução do GPLOAD
- Estrutura de um arquivo de configuração YAML.
- Principais parâmetros: SOURCE, COLUMNS, FORMAT, LOGS, DATABASE.
- Execução de cargas simples com gpload.
- Exercícios práticos: carregamento de arquivos CSV e TXT.
Módulo 4: Funcionalidades Avançadas
- Definição de delimitadores, aspas e encoding.
- Tratamento de valores nulos e erros de formatação.
- Uso de TRANSFORMATIONS para pré-processar dados.
- Cargas incrementais com UPDATE e MERGE.
Módulo 5: Monitoramento e Logs
- Diretórios e arquivos de log do GPLOAD.
- Interpretando mensagens de erro.
- Boas práticas de monitoramento.
Módulo 6: Otimização e Performance
- Estratégias para lidar com grandes volumes de dados.
- Balanceamento de carga com múltiplos gpfdist.
- Impacto de particionamento e índices.
- Boas práticas de tunning em ingestão massiva.
Módulo 7: Integração com Pipelines
- Automatizando cargas com GPLOAD.
- Integração com ferramentas de ETL.
- Uso do GPLOAD em orquestradores como Airflow e Argo.
Módulo 8: Laboratórios Práticos
- Configuração completa de um job GPLOAD.
- Carga de dados massivos com gpfdist distribuído.
- Transformação de dados durante a ingestão.
- Simulação de um pipeline real com múltiplos arquivos.
TENHO INTERESSE