Visão Geral
O curso Apache NiFi for Data Engineering capacita profissionais a projetar, desenvolver e operar pipelines de dados modernos utilizando o Apache NiFi. O treinamento aborda conceitos fundamentais de engenharia de dados, ingestão e movimentação de dados em tempo real, integração entre sistemas, automação de fluxos de dados e governança de pipelines.
Durante o curso, os participantes aprenderão a construir DataFlows escaláveis, integrar diversas fontes de dados (bancos SQL, NoSQL, APIs, arquivos, streams e Data Lakes), aplicar transformações e implementar boas práticas de arquitetura de dados.
Também serão explorados recursos avançados do Apache NiFi como Data Provenance, Controller Services, Expression Language, Record Processing, integração com Hadoop e Data Lakes, além de técnicas de monitoramento, segurança e performance.
Ao final do treinamento, os alunos estarão aptos a desenvolver pipelines de dados robustos para ambientes corporativos de Big Data, Data Lake, DataOps e plataformas modernas de dados.
Objetivo
Após realizar este curso Apache NiFi for Data Engineering, você será capaz de:
- Compreender a arquitetura e funcionamento do Apache NiFi
- Projetar pipelines de ingestão e processamento de dados
- Implementar DataFlows para integração entre diferentes sistemas
- Transformar e enriquecer dados utilizando Processors
- Integrar pipelines de dados com plataformas Big Data
- Implementar monitoramento e governança de fluxos de dados
- Automatizar pipelines de dados para ambientes corporativos
- Escalar pipelines de dados em ambientes distribuídos
Publico Alvo
- Engenheiros de dados
- Profissionais de Big Data
- Arquitetos de dados
- Engenheiros de DataOps
- Profissionais de integração de dados
- Administradores de sistemas
- Profissionais de analytics e BI
Pre-Requisitos
- Conhecimentos básicos de Linux
- Noções de bancos de dados SQL
- Conhecimentos básicos de redes e protocolos de comunicação
- Familiaridade com conceitos de integração de dados
- Noções de Big Data são desejáveis
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1: Introduction to Data Engineering and Apache NiFi
- Data Engineering Fundamentals
- Modern Data Pipelines
- Data Integration Challenges
- Overview of Apache NiFi
- NiFi Architecture and Core Concepts
Module 2: Apache NiFi Architecture and Components
- NiFi Core Architecture
- FlowFile Concept
- Processor Architecture
- Connections and Queues
- Scheduling and Execution Model
Module 3: Installing and Configuring Apache NiFi
- Installation Requirements
- Installing NiFi on Linux and Windows
- NiFi Configuration Files
- Ports and Network Configuration
- Running NiFi in Standalone Mode
Module 4: Building DataFlows
- Creating Data Pipelines
- Working with Processors
- Configuring Connections and Queues
- Flow Control and Prioritization
- Error Handling Strategies
Module 5: Core Processors for Data Engineering
- File Processing Processors
- Database Integration Processors
- Data Transformation Processors
- Data Routing Processors
- Logging and Monitoring Processors
Module 6: Data Transformation and Enrichment
- Record-Oriented Processing
- Data Format Conversion
- Schema Management
- Data Enrichment Strategies
- Data Validation
Module 7: NiFi Expression Language and RecordPath
- Expression Language Fundamentals
- Data Manipulation with Expressions
- Conditional Routing
- RecordPath Queries
- Dynamic Data Transformations
Module 8: Data Provenance and Monitoring
- Data Provenance Concepts
- Tracking Data Lineage
- Monitoring Data Pipelines
- Debugging DataFlows
- Performance Analysis
Module 9: Integrating NiFi with Data Platforms
- Integrating with Apache Kafka
- Integrating with Apache Hadoop HDFS
- Database Integration (SQL and NoSQL)
- API and Webservice Integration
- Data Lake Integration
Module 10: NiFi Registry and Version Control
- NiFi Registry Architecture
- Installing and Configuring Registry
- Versioning DataFlows
- Managing Flow Environments
- Promoting Flows Between Environments
Module 11: Scaling Apache NiFi
- NiFi Cluster Architecture
- High Availability Concepts
- Load Balancing Strategies
- Distributed Data Processing
- Scaling Data Pipelines
Module 12: Security and Governance
- Authentication and Authorization
- Access Policies
- Secure Data Transmission
- Data Governance Strategies
- Compliance and Audit
Module 13: Deploying NiFi in Modern Environments
- Running NiFi with Docker
- Deploying NiFi in Kubernetes
- Cloud Deployments
- Infrastructure Automation
- Observability for Data Pipelines
Module 14: Performance Tuning and Optimization
- NiFi Performance Tuning
- Queue Management
- Resource Optimization
- Monitoring System Resources
- Best Practices for Production
Module 15: Real-World Data Engineering Pipelines
- Building File Ingestion Pipelines
- Streaming Data Pipelines
- ETL and ELT Data Pipelines
- Real-Time Data Processing
- End-to-End Data Platform Integration
TENHO INTERESSE