Curso ETL com Pentaho Data Integration PDI
40 horasVisão Geral
Este Curso ETL com Pentaho Data Integration PDI introdutório é voltado para desenvolvedores que desejam aprender a criar processos de Extração, Transformação e Carga (ETL) utilizando o Pentaho Data Integration (PDI), também conhecido como Kettle. O Curso ETL com Pentaho Data Integration PDI explora os fundamentos da ferramenta, desde a configuração inicial até a construção de pipelines básicos, com foco em exemplos práticos e cenários reais.
Por que você deve fazer este curso
- Os processos de ETL são a base para integração e preparação de dados em projetos de business intelligence e análise. Este curso oferece uma introdução acessível ao Pentaho Data Integration, uma ferramenta open-source poderosa e amplamente utilizada, capacitando você a transformar dados brutos em informações úteis e a dar os primeiros passos em engenharia de dados.
Objetivo
Após realizar este Curso ETL com Pentaho Data Integration PDI, você será capaz de:
- Instalar e configurar o Pentaho Data Integration em seu ambiente.
- Criar transformações básicas para extrair, transformar e carregar dados.
- Conectar-se a fontes de dados como arquivos e bancos relacionais.
- Aplicar operações simples de limpeza e agregação de dados.
- Executar e automatizar pipelines de ETL com jobs.
Publico Alvo
- Desenvolvedores iniciantes interessados em processos de ETL.
- Analistas de dados ou profissionais de TI que desejam aprender uma ferramenta de integração de dados.
- Estudantes ou recém-formados em tecnologia buscando habilidades práticas em BI.
Pre-Requisitos
- Conhecimento básico de lógica de programação (não é necessário nível avançado).
- Familiaridade com conceitos de bancos de dados (ex.: tabelas, consultas SQL simples).
- Não é necessária experiência prévia com Pentaho ou ETL.
Materiais
Inglês/Português/Lab PráticoConteúdo Programatico
Introduction to ETL and PDI
- What is ETL? Key concepts and applications
- Overview of Pentaho Data Integration (PDI)
- Installing PDI and exploring the Spoon interface
- Hands-on: Setting up your first PDI environment
Understanding Transformations
- Basics of transformations: Steps and hops
- Creating a simple transformation workflow
- Practical example: Loading a CSV file into PDI
Extracting Data from Files
- Working with CSV, Excel, and text inputs
- Configuring input steps and previewing data
- Hands-on: Extracting data from a sample Excel file
Connecting to Databases
- Setting up database connections (JDBC)
- Extracting data with the Table Input step
- Practical example: Loading data from a MySQL table
Basic Data Transformations
- Using steps: Filter Rows, Select Values, Replace in String
- Cleaning data: Removing nulls and duplicates
- Hands-on: Transforming raw sales data
Loading Data into Destinations
- Writing to files (CSV, Text Output)
- Loading data into databases (Table Output)
- Practical example: Exporting transformed data to a database
Introduction to Jobs
- Differences between transformations and jobs
- Creating a job to orchestrate transformations
- Hands-on: Building a job to run multiple steps
Simple Aggregations and Joins
- Aggregating data with Group By
- Joining datasets with Merge Join
- Practical example: Summarizing sales by region
Error Handling and Logging
- Adding basic error handling in transformations
- Configuring logs for debugging
- Hands-on: Setting up error logging for a pipeline
Final Project and Review
- Designing a complete ETL process from scratch
- Combining extraction, transformation, and loading
- Final exercise: Creating a pipeline for a sample dataset