Curso Apache Spark Fundamentals

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Spark Fundamentals

24 horas
Visão Geral

O curso Apache Spark Fundamentals proporciona uma introdução prática e abrangente ao ecossistema Apache Spark — desde os fundamentos de processamento distribuído até o uso de suas principais APIs em ambientes de Big Data. Os participantes vão aprender como projetar, implementar e executar aplicações Spark que processem dados em larga escala, com foco em performance, escalabilidade e integração com outras tecnologias do ecossistema.

Objetivo

Após realizar este Curso Apache Spark Fundamentals, você será capaz de:

  • Compreender a arquitetura e os componentes do Apache Spark (Driver, Executors, Cluster Manager, etc.).
  • Preparar ambientes de desenvolvimento e execução para Spark (local, cluster stand-alone, YARN, Kubernetes).
  • Utilizar as APIs principais do Spark (RDD, DataFrame, Dataset) para carga, transformação e análise de dados.
  • Aplicar técnicas de otimização de performance, particionamento, lazy evaluation e caching.
  • Integrar Spark com sistemas de armazenamento (HDFS, S3, NoSQL) e fontes de dados variadas.
  • Monitorar, depurar e operar jobs Spark em produção, com boas práticas de confiabilidade e escalabilidade.
Publico Alvo
  • Engenheiros de dados e cientistas de dados que desejam conhecer ou aprofundar o uso de Apache Spark.
  • Desenvolvedores backend e arquitetos de soluções que trabalham com Big Data, pipelines de dados ou processamento distribuído.
  • Profissionais DevOps ou de infraestrutura que vão operar plataformas Spark ou clusters de dados.
Pre-Requisitos
  • Conhecimento básico de programação em Scala, Java ou Python.
  • Noções de bancos de dados, Big Data, e sistemas distribuídos.
  • Familiaridade com linha de comando e ambientes Linux é desejável.
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Apache Spark & Big Data

  1. Evolution of Big Data and limitations of traditional systems
  2. Spark overview and ecosystem (Spark Core, SQL, Streaming, MLlib, GraphX)
  3. Spark architecture: Driver, Executors, Cluster Manager (Stand-alone, YARN, Mesos, Kubernetes)
  4. Understanding RDDs, lazy evaluation, and execution model

Module 2: Getting Started with Spark Environment Setup

  1. Installing Spark locally and running in cluster mode
  2. Spark shells: Scala, Python (PySpark) and Spark Submit
  3. Configuring Spark properties (spark-conf) and resources
  4. Understanding Spark UI, logs and job lifecycle

Module 3: Core Spark APIs – RDDs, DataFrames and Datasets

  1. Working with RDDs: transformations, actions, persistence
  2. DataFrame API: schema, columns, SQL queries
  3. Dataset API: strongly typed in Scala/Java
  4. Converting between RDD, DataFrame, Dataset and optimisation strategies

Module 4: Data Processing with Spark SQL

  1. Using Spark SQL for structured data processing
  2. Creating tables, views, and executing SQL queries
  3. Integrating with external data sources (Parquet, JSON, CSV, JDBC)
  4. Performance tuning: caching, partitioning, broadcast joins and Catalyst engine

Module 5: Advanced Data Processing & Performance Optimization

  1. Partitioning strategies and data skew mitigation
  2. Understanding Tungsten execution and Catalyst optimizer
  3. Caching/persistence and memory management
  4. Monitoring tasks, stages and shuffle operations
  5. Backpressure and job performance tuning

Module 6: Integration & Ecosystem Connectivity

  1. Reading/writing from/to HDFS, S3, NoSQL (Cassandra, HBase)
  2. Integration with messaging systems: Kafka, Kinesis
  3. Using Spark with other big data tools (Hive, Delta Lake)
  4. Handling unstructured and semi-structured data

Module 7: Monitoring, Debugging and Production Readiness

  1. Spark UI and Spark History Server
  2. Logging, metrics and integration with Prometheus/Grafana
  3. Debugging common errors and failures (OOM, stage failures)
  4. Deploying Spark applications: cluster management, resource isolation, cost optimization

Module 8: Hands-On Project – Real World Data Pipeline

  1. Designing a data ingestion pipeline: ingest raw data, process, store results
  2. Building Spark job using DataFrame/Dataset API
  3. Applying optimizations, caching, and performance tuning
  4. Deploying job to cluster, monitoring execution, validating results
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h