Curso ETL com Pentaho Data Integration PDI Advanced
40 horasVisão Geral
Curso ETL com Pentaho Data Integration PDI Advanced: Desenvolvimento de Processos de ETL com Pentaho Data Integration (PDI) Este Curso ETL com Pentaho Data Integration PDI Advanced é voltado para desenvolvedores com experiência básica em Pentaho Data Integration (PDI) que desejam aprofundar suas habilidades no desenvolvimento de processos de ETL complexos e otimizados. O treinamento cobre tópicos como integração com big data, personalização de transformações, automação avançada e desempenho, com foco em cenários práticos e soluções corporativas.
Por que você deve fazer este curso
- O domínio de técnicas avançadas de ETL com o PDI permite que você enfrente desafios de integração de dados em larga escala, otimize pipelines e crie soluções personalizadas para atender às necessidades de negócios complexas. Este curso eleva suas competências, preparando-o para projetos críticos em engenharia de dados e big data.
Objetivo
Após realizar este Curso ETL com Pentaho Data Integration PDI Advanced: Desenvolvimento de Processos de ETL com Pentaho Data Integration (PDI), você será capaz de:
- Desenvolver pipelines de ETL complexos e escaláveis com o PDI.
- Integrar o PDI com sistemas de big data e fluxos em tempo real.
- Criar transformações personalizadas usando scripts e plugins.
- Otimizar o desempenho de processos ETL em larga escala.
- Automatizar e monitorar fluxos de trabalho avançados com alta confiabilidade.
Publico Alvo
- Desenvolvedores com experiência prévia em ETL e PDI (nível básico ou intermediário).
- Engenheiros de dados buscando otimizar processos de integração.
- Profissionais de BI ou TI que trabalham com pipelines de dados avançados.
Pre-Requisitos
- Conhecimento básico de Pentaho Data Integration (ex.: criação de transformações e jobs).
- Familiaridade com SQL e manipulação de bancos de dados relacionais.
- Experiência com lógica de programação (ex.: Java, Python ou scripting) é um diferencial.
Materiais
Inglês/Português/Lab PráticoConteúdo Programatico
Advanced PDI Concepts and Architecture
- Deep dive into PDI execution engine and parallelism
- Configuring PDI for high-performance environments
- Hands-on: Setting up a multi-threaded transformation
Complex Data Extraction
- Extracting from REST APIs and web services
- Handling unstructured and semi-structured data (JSON, XML)
- Practical example: Loading data from a REST API
Advanced Transformations and Joins
- Dynamic transformations with variables and parameters
- Multi-table joins and slowly changing dimensions (SCD)
- Hands-on: Implementing an SCD Type 2 process
Custom Steps and Scripting
- Developing custom steps with Java
- Using JavaScript and Python scripting in PDI
- Practical example: Creating a custom data enrichment step
Big Data Integration
- Connecting PDI to Hadoop (HDFS, Hive)
- Processing real-time streams with Kafka
- Hands-on: Building a Kafka-to-database pipeline
Performance Optimization
- Identifying bottlenecks and optimizing transformations
- Using partitioning and clustering for scalability
- Practical example: Tuning a high-volume ETL job
Advanced Job Orchestration
- Designing workflows with sub-jobs and loops
- Implementing retry logic and error recovery
- Hands-on: Automating a multi-stage ETL process
Security and Data Governance
- Securing transformations and connections (encryption)
- Implementing audit trails and data lineage
- Practical example: Adding encryption to a pipeline
Monitoring and Troubleshooting
- Advanced logging and metrics configuration
- Debugging complex ETL workflows
- Hands-on: Setting up real-time monitoring
Final Project: End-to-End Advanced ETL
- Designing a complete ETL solution with big data integration
- Optimizing and automating the pipeline
- Final exercise: Deploying a scalable ETL process