Curso Apache Spark Architecture

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Spark Architecture

20 horas
Visão Geral

O curso Apache Spark Architecture foi desenvolvido para proporcionar uma compreensão profunda sobre a arquitetura interna e o funcionamento do Apache Spark, uma das principais plataformas para processamento distribuído de grandes volumes de dados.
Durante o treinamento, o participante aprenderá como o Spark gerencia tarefas, executa jobs, distribui dados e utiliza memória de forma otimizada.
O curso combina teoria e prática, permitindo que o aluno explore a estrutura do Spark Core, o funcionamento de RDDs, DataFrames, Spark SQL e como o Spark se integra com outras ferramentas do ecossistema Big Data.

Objetivo

Após realizar o curso Apache Spark Architecture, você será capaz de:

  • Compreender a arquitetura e os principais componentes do Apache Spark.
  • Entender como funciona o Spark Driver, Executors e o Cluster Manager.
  • Conhecer o ciclo de vida de um job e o funcionamento do DAG (Directed Acyclic Graph).
  • Analisar o gerenciamento de recursos e otimização de execução.
  • Trabalhar com RDDs, DataFrames e o Catalyst Optimizer.
  • Compreender a integração do Spark com HDFS, Hive e outras plataformas Big Data.
Publico Alvo
  • Engenheiros e analistas de dados.
  • Desenvolvedores e arquitetos de soluções Big Data.
  • Administradores de clusters Hadoop/Spark.
  • Profissionais que desejam dominar o funcionamento interno do Spark para otimização e escalabilidade.
Pre-Requisitos
  • Conhecimento básico em Python ou Scala.
  • Familiaridade com conceitos de Big Data e Hadoop.
  • Noções de sistemas distribuídos e processamento paralelo.
  • Ambiente configurado com Apache Spark instalado.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Apache Spark

  1. O que é o Apache Spark e seu papel no ecossistema Big Data
  2. Comparação com Hadoop MapReduce
  3. Casos de uso e vantagens da arquitetura in-memory
  4. Componentes principais: Spark Core, SQL, Streaming, MLlib e GraphX

Módulo 2: Arquitetura do Spark

  1. Arquitetura geral: Driver, Executors e Cluster Manager
  2. Funcionamento do Spark Context e SparkSession
  3. Ciclo de vida de um job Spark
  4. Transformações e ações em RDDs

Módulo 3: Spark Execution Model

  1. Submissão e execução de aplicações Spark
  2. DAG Scheduler, Task Scheduler e Executor Backend
  3. Divisão em stages e tarefas
  4. Planejamento físico e lógico de execução

Módulo 4: RDDs e DataFrames

  1. Estrutura e funcionamento dos RDDs (Resilient Distributed Datasets)
  2. Lazy Evaluation e persistência de dados
  3. Otimizações com DataFrames e Spark SQL
  4. Catalyst Optimizer e Tungsten Execution Engine

Módulo 5: Cluster Managers

  1. Tipos de gerenciadores de cluster: Standalone, YARN e Mesos
  2. Configuração e escalabilidade de clusters Spark
  3. Gerenciamento de recursos e isolamento de jobs
  4. Monitoramento via Spark UI

Módulo 6: Armazenamento e Integração

  1. Integração com HDFS, Hive, Cassandra e Kafka
  2. Leitura e escrita em formatos Parquet, Avro e JSON
  3. Particionamento e paralelismo de dados
  4. Boas práticas de ingestão e persistência

Módulo 7: Performance e Otimização

  1. Estratégias de caching e persistência
  2. Broadcast variables e Accumulators
  3. Tuning de parâmetros de execução
  4. Diagnóstico e solução de gargalos de performance

Módulo 8: Segurança e Deploy

  1. Configuração de autenticação e autorização no Spark
  2. Gerenciamento de certificados e encriptação de dados
  3. Estratégias de deploy: local, cluster e cloud
  4. Boas práticas de segurança e manutenção

Módulo 9: Projeto Prático Final

  1. Configuração de um ambiente Spark distribuído
  2. Execução e análise de um job real (ETL, análise de logs ou streaming)
  3. Monitoramento e análise do DAG
  4. Documentação e apresentação do projeto
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Software Development

24 horas