Curso Apache NiFi e Hadoop DataFlow Engineering

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas
Visão Geral

O curso Apache NiFi e Hadoop DataFlow Engineering apresenta os conceitos fundamentais, arquitetura, instalação, configuração e administração do Apache NiFi dentro do ecossistema de Big Data e Hadoop. Durante o treinamento, os participantes aprenderão como construir, gerenciar e monitorar fluxos de dados (DataFlows), integrar diferentes fontes de dados e aplicar boas práticas de governança e performance.

O curso aborda desde a introdução ao Hadoop e ao Apache NiFi até tópicos avançados como Data Provenance, Expression Language, RecordPath, integração com bancos de dados, Web Services, Data Lakes, clusterização, automação via API, monitoramento e otimização de performance.

Também são exploradas integrações com ferramentas do ecossistema como Apache Hadoop, Apache ZooKeeper, NiFi Registry, MiniFi, Docker e Kubernetes, além de práticas de desenvolvimento de processadores personalizados.

Ao final do curso, o participante estará apto a projetar, implementar e administrar pipelines de dados robustos utilizando Apache NiFi em ambientes corporativos e arquiteturas modernas de dados.

Objetivo

Após realizar este curso Apache NiFi e Hadoop DataFlow Engineering, você será capaz de:

  • Compreender a arquitetura do Apache Hadoop e do Apache NiFi
  • Projetar e implementar DataFlows para ingestão e transformação de dados
  • Instalar e configurar ambientes Apache NiFi
  • Construir pipelines de dados utilizando Processors e Controller Services
  • Utilizar Expression Language e RecordPath para transformação de dados
  • Integrar diferentes fontes de dados como FTP, bancos de dados e APIs
  • Implementar versionamento de pipelines com NiFi Registry
  • Administrar clusters NiFi em ambientes de produção
  • Monitorar e otimizar performance de pipelines de dados
  • Desenvolver processadores personalizados para Apache NiFi
Publico Alvo
  • Engenheiros de Dados
  • Engenheiros de Big Data
  • Profissionais de DataOps
  • Administradores de sistemas Linux
  • Engenheiros DevOps
  • Profissionais de integração de dados
  • Arquitetos de dados
  • Desenvolvedores de aplicações de dados
  • Especialistas em plataformas Hadoop
Pre-Requisitos
  • Conhecimentos básicos de Linux
  • Noções de redes e protocolos de comunicação
  • Conhecimentos básicos de bancos de dados SQL
  • Noções de Big Data e Data Lake
  • Familiaridade com conceitos de integração de dados é desejável
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Hadoop and Big Data Ecosystem

  1. Introduction to Hadoop
  2. History of Apache Hadoop Project
  3. Hadoop Characteristics
  4. Fundamental Concepts
  5. Hadoop Core Components
  6. Hadoop Ecosystem Overview

Module 2: Introduction to Apache NiFi

  1. Apache NiFi Project Overview
  2. History of Apache NiFi
  3. Apache NiFi Versions
  4. Licensing (Free Software vs Open Source)
  5. Apache Software Foundation Overview
  6. Apache Software Foundation Sponsors
  7. Data at Rest vs Data in Motion
  8. Apache NiFi Architecture
  9. NiFi Ecosystem
  10. Core Terminology
  11. Apache NiFi Web UI
  12. Data Integration Tools Comparison (Sqoop, Pentaho Data Integration, NiFi, Talend, Apache Hop)

Module 3: Installing and Configuring Apache NiFi

  1. Installation Requirements
  2. Installing NiFi in Standalone Mode
  3. Communication Ports and Protocols
  4. Core Configuration Properties

Module 4: DataFlow Concepts in Apache NiFi

  1. DataFlow Fundamentals
  2. DataFlow Manager (DFM)
  3. Processors
  4. Processor Types
  5. Processor Properties
  6. Data Queues
  7. Relationships
  8. Connections
  9. Scheduling
  10. Error Handling
  11. Labels
  12. Conditional Processors
  13. The flow.xml.gz File

Module 5: DataFlow Templates

  1. DataFlow Templates Overview
  2. Importing DataFlow Templates
  3. Exporting DataFlow Templates

Module 6: Core Apache NiFi Processors

  1. Processor Groups
  2. GetFiles Processor
  3. PutFiles Processor
  4. ConvertRecord Processor
  5. PutSQL Processor
  6. QueryDatabaseTableRecord Processor
  7. LogAttribute Processor
  8. AttributesToCSV Processor
  9. AttributesToJSON Processor
  10. GetFTP Processor
  11. GetHDFS Processor

Module 7: NiFi Data Provenance

  1. Data Provenance Concepts
  2. NiFi FlowFile Structure
  3. Provenance Events
  4. Event Types
  5. File Lineage
  6. Provenance Repository

Module 8: Apache NiFi Controller Services

  1. Controller Services Concepts
  2. Services Architecture
  3. Controller Services Types
  4. Controller Services Groups
  5. Configuring Controller Services
  6. AvroRecordSetWriter

Module 9: NiFi Expression Language

  1. Expression Language Structure
  2. Expression Language Editor
  3. NiFi Expression Functions
  4. Data Types
  5. Boolean Logic
  6. Text Manipulation
  7. Encode and Decode Functions
  8. Searching
  9. Mathematical Operations
  10. Numeric Manipulation
  11. Date Manipulation

Module 10: NiFi RecordPath

  1. RecordPath Concepts
  2. RecordPath Schemas
  3. Node Access
  4. Filter Predicates
  5. Filter Functions
  6. Type Conversion
  7. Text Manipulation
  8. Date Formatting
  9. Encode and Decode Functions

Module 11: DataFlows in Practice

  1. File Format Conversion (CSV to JSON)
  2. Database Aggregating, Splitting and Transforming
  3. Extracting Logs and Data Streams
  4. Data Extraction via FTP and SSH
  5. SQL and NoSQL Database Integration
  6. Hadoop Data Lake Integration with HDFS
  7. Integrating Webservices (REST and SOAP)

Module 12: Apache NiFi Registry

  1. NiFi Registry Concepts
  2. Installing NiFi Registry
  3. Integrating NiFi with NiFi Registry
  4. Flow Registry Management
  5. Flow Versioning
  6. Access Control in NiFi Registry

Module 13: Apache NiFi Administration

  1. User Authentication
  2. Access Policy Management
  3. Data Encryption

Module 14: Apache NiFi REST API

  1. Authentication
  2. Main REST API Endpoints
  3. Managing DataFlows via API
  4. Practical Use Cases

Module 15: Tools and Supporting Projects

  1. NiFi Toolkit
  2. Apache MiNiFi and IoT
  3. Reporting Tasks
  4. Introduction to Apache ZooKeeper
  5. ZooKeeper Architecture
  6. ZooKeeper Data Model
  7. ZooKeeper Use Cases
  8. Projects Using ZooKeeper

Module 16: NiFi Cluster Architecture

  1. Cluster Integration
  2. Load Balancing and Redundancy
  3. Large Scale NiFi Orchestration
  4. Embedded ZooKeeper in NiFi
  5. NiFi with Docker and Kubernetes
  6. Deploying NiFi in Managed Cloud Environments

Module 17: Monitoring and Recovery

  1. Monitoring NiFi DataFlows
  2. Data Recovery without Data Loss
  3. Autonomous Recovery Mechanisms

Module 18: Optimizing Apache NiFi

  1. Performance Tuning
  2. NiFi Setup Best Practices
  3. Upgrading NiFi in Production

Module 19: Apache NiFi Development

  1. Processor Components and Events
  2. Processor Development Patterns
  3. Developing Custom Apache NiFi Processors using JSON

Module 20: Best Practices and Troubleshooting

  1. Operational Best Practices
  2. Troubleshooting NiFi Pipelines
  3. Debugging DataFlows
  4. Operational Stability and Governance
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h