Curso Spark Streaming

  • DevOps | CI | CD | Kubernetes | Web3

Curso Spark Streaming

24 horas
Visão Geral

O curso Spark Streaming ensina como projetar, desenvolver e gerenciar aplicações de processamento de dados em tempo real utilizando o Apache Spark. O participante aprenderá a construir pipelines de streaming para capturar, transformar e analisar dados contínuos de fontes como Kafka, sockets e arquivos, além de aplicar técnicas de tolerância a falhas, escalabilidade e otimização de performance.

Objetivo

Após realizar este Curso Spark Streaming, você será capaz de:

  • Entender o funcionamento interno do Apache Spark Streaming
  • Criar aplicações de processamento de dados em tempo real
  • Integrar fluxos de dados com Kafka, Redis e outras fontes
  • Implementar transformações e agregações contínuas
  • Gerenciar e monitorar pipelines de streaming em produção
Publico Alvo
  • Engenheiros de dados, cientistas de dados, desenvolvedores backend e profissionais DevOps interessados em processamento de dados em tempo real e análise contínua com Apache Spark.
Pre-Requisitos
  • Conhecimentos básicos de programação (Python, Scala ou Java)
  • Noções de bancos de dados e sistemas distribuídos
  • Familiaridade com Apache Spark e conceitos de Big Data
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Spark Streaming

  1. Overview of real-time data processing
  2. Batch vs. streaming processing
  3. Apache Spark Streaming architecture
  4. Use cases and real-world applications

Module 2: Setting Up Spark Streaming Environment

  1. Installing and configuring Apache Spark
  2. Spark cluster overview (Standalone, YARN, Kubernetes)
  3. Understanding SparkContext and StreamingContext
  4. Running your first Spark Streaming job

Module 3: DStreams (Discretized Streams)

  1. Core concepts of DStreams
  2. Transformations and actions on DStreams
  3. Window operations and sliding intervals
  4. Stateful operations with updateStateByKey

Module 4: Structured Streaming Fundamentals

  1. Introduction to Structured Streaming
  2. Differences between DStreams and Structured Streaming
  3. Defining sources, transformations, and sinks
  4. Event-time processing and watermarking

Module 5: Integrating with External Systems

  1. Reading from and writing to Apache Kafka
  2. Integration with Redis, Cassandra, and HDFS
  3. Consuming data from sockets and file streams
  4. Writing output to dashboards and APIs

Module 6: Fault Tolerance and Checkpointing

  1. Understanding fault tolerance in Spark Streaming
  2. Configuring checkpointing for state recovery
  3. Managing driver and executor failures
  4. Data consistency and exactly-once semantics

Module 7: Performance Tuning and Optimization

  1. Batch interval tuning and backpressure handling
  2. Memory and resource management
  3. Parallelism, partitioning, and task scheduling
  4. Best practices for low-latency streaming

Module 8: Monitoring and Observability

  1. Using Spark UI and metrics system
  2. Integrating Prometheus and Grafana for observability
  3. Log analysis and job debugging
  4. Alerting and production monitoringModule 9: Hands-On Project
  5. Building a real-time log analytics application
  6. Consuming streaming data from Kafka
  7. Performing real-time aggregation and windowing
  8. Writing results to a database or dashboard
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h