Curso Apache Spark Architecture

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Spark Architecture

20 horas
Visão Geral

O curso Apache Spark Architecture foi desenvolvido para proporcionar uma compreensão profunda sobre a arquitetura interna e o funcionamento do Apache Spark, uma das principais plataformas para processamento distribuído de grandes volumes de dados.
Durante o treinamento, o participante aprenderá como o Spark gerencia tarefas, executa jobs, distribui dados e utiliza memória de forma otimizada.
O curso combina teoria e prática, permitindo que o aluno explore a estrutura do Spark Core, o funcionamento de RDDs, DataFrames, Spark SQL e como o Spark se integra com outras ferramentas do ecossistema Big Data.

Objetivo

Após realizar o curso Apache Spark Architecture, você será capaz de:

  • Compreender a arquitetura e os principais componentes do Apache Spark.
  • Entender como funciona o Spark Driver, Executors e o Cluster Manager.
  • Conhecer o ciclo de vida de um job e o funcionamento do DAG (Directed Acyclic Graph).
  • Analisar o gerenciamento de recursos e otimização de execução.
  • Trabalhar com RDDs, DataFrames e o Catalyst Optimizer.
  • Compreender a integração do Spark com HDFS, Hive e outras plataformas Big Data.
Publico Alvo
  • Engenheiros e analistas de dados.
  • Desenvolvedores e arquitetos de soluções Big Data.
  • Administradores de clusters Hadoop/Spark.
  • Profissionais que desejam dominar o funcionamento interno do Spark para otimização e escalabilidade.
Pre-Requisitos
  • Conhecimento básico em Python ou Scala.
  • Familiaridade com conceitos de Big Data e Hadoop.
  • Noções de sistemas distribuídos e processamento paralelo.
  • Ambiente configurado com Apache Spark instalado.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Apache Spark

  1. O que é o Apache Spark e seu papel no ecossistema Big Data
  2. Comparação com Hadoop MapReduce
  3. Casos de uso e vantagens da arquitetura in-memory
  4. Componentes principais: Spark Core, SQL, Streaming, MLlib e GraphX

Módulo 2: Arquitetura do Spark

  1. Arquitetura geral: Driver, Executors e Cluster Manager
  2. Funcionamento do Spark Context e SparkSession
  3. Ciclo de vida de um job Spark
  4. Transformações e ações em RDDs

Módulo 3: Spark Execution Model

  1. Submissão e execução de aplicações Spark
  2. DAG Scheduler, Task Scheduler e Executor Backend
  3. Divisão em stages e tarefas
  4. Planejamento físico e lógico de execução

Módulo 4: RDDs e DataFrames

  1. Estrutura e funcionamento dos RDDs (Resilient Distributed Datasets)
  2. Lazy Evaluation e persistência de dados
  3. Otimizações com DataFrames e Spark SQL
  4. Catalyst Optimizer e Tungsten Execution Engine

Módulo 5: Cluster Managers

  1. Tipos de gerenciadores de cluster: Standalone, YARN e Mesos
  2. Configuração e escalabilidade de clusters Spark
  3. Gerenciamento de recursos e isolamento de jobs
  4. Monitoramento via Spark UI

Módulo 6: Armazenamento e Integração

  1. Integração com HDFS, Hive, Cassandra e Kafka
  2. Leitura e escrita em formatos Parquet, Avro e JSON
  3. Particionamento e paralelismo de dados
  4. Boas práticas de ingestão e persistência

Módulo 7: Performance e Otimização

  1. Estratégias de caching e persistência
  2. Broadcast variables e Accumulators
  3. Tuning de parâmetros de execução
  4. Diagnóstico e solução de gargalos de performance

Módulo 8: Segurança e Deploy

  1. Configuração de autenticação e autorização no Spark
  2. Gerenciamento de certificados e encriptação de dados
  3. Estratégias de deploy: local, cluster e cloud
  4. Boas práticas de segurança e manutenção

Módulo 9: Projeto Prático Final

  1. Configuração de um ambiente Spark distribuído
  2. Execução e análise de um job real (ETL, análise de logs ou streaming)
  3. Monitoramento e análise do DAG
  4. Documentação e apresentação do projeto
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h