Curso Apache Spark Fundamentals

24 horas

Visão Geral

O curso Apache Spark Fundamentals proporciona uma introdução prática e abrangente ao ecossistema Apache Spark — desde os fundamentos de processamento distribuído até o uso de suas principais APIs em ambientes de Big Data. Os participantes vão aprender como projetar, implementar e executar aplicações Spark que processem dados em larga escala, com foco em performance, escalabilidade e integração com outras tecnologias do ecossistema.

Objetivo

Após realizar este Curso Apache Spark Fundamentals, você será capaz de:

Compreender a arquitetura e os componentes do Apache Spark (Driver, Executors, Cluster Manager, etc.).
Preparar ambientes de desenvolvimento e execução para Spark (local, cluster stand-alone, YARN, Kubernetes).
Utilizar as APIs principais do Spark (RDD, DataFrame, Dataset) para carga, transformação e análise de dados.
Aplicar técnicas de otimização de performance, particionamento, lazy evaluation e caching.
Integrar Spark com sistemas de armazenamento (HDFS, S3, NoSQL) e fontes de dados variadas.
Monitorar, depurar e operar jobs Spark em produção, com boas práticas de confiabilidade e escalabilidade.

Publico Alvo

Engenheiros de dados e cientistas de dados que desejam conhecer ou aprofundar o uso de Apache Spark.
Desenvolvedores backend e arquitetos de soluções que trabalham com Big Data, pipelines de dados ou processamento distribuído.
Profissionais DevOps ou de infraestrutura que vão operar plataformas Spark ou clusters de dados.

Pre-Requisitos

Conhecimento básico de programação em Scala, Java ou Python.
Noções de bancos de dados, Big Data, e sistemas distribuídos.
Familiaridade com linha de comando e ambientes Linux é desejável.

Materiais

Inglês + Exercícios + Lab Pratico

Conteúdo Programatico

Module 1: Introduction to Apache Spark & Big Data

Evolution of Big Data and limitations of traditional systems
Spark overview and ecosystem (Spark Core, SQL, Streaming, MLlib, GraphX)
Spark architecture: Driver, Executors, Cluster Manager (Stand-alone, YARN, Mesos, Kubernetes)
Understanding RDDs, lazy evaluation, and execution model

Module 2: Getting Started with Spark Environment Setup

Installing Spark locally and running in cluster mode
Spark shells: Scala, Python (PySpark) and Spark Submit
Configuring Spark properties (spark-conf) and resources
Understanding Spark UI, logs and job lifecycle

Module 3: Core Spark APIs – RDDs, DataFrames and Datasets

Working with RDDs: transformations, actions, persistence
DataFrame API: schema, columns, SQL queries
Dataset API: strongly typed in Scala/Java
Converting between RDD, DataFrame, Dataset and optimisation strategies

Module 4: Data Processing with Spark SQL

Using Spark SQL for structured data processing
Creating tables, views, and executing SQL queries
Integrating with external data sources (Parquet, JSON, CSV, JDBC)
Performance tuning: caching, partitioning, broadcast joins and Catalyst engine

Module 5: Advanced Data Processing & Performance Optimization

Partitioning strategies and data skew mitigation
Understanding Tungsten execution and Catalyst optimizer
Caching/persistence and memory management
Monitoring tasks, stages and shuffle operations
Backpressure and job performance tuning

Module 6: Integration & Ecosystem Connectivity

Reading/writing from/to HDFS, S3, NoSQL (Cassandra, HBase)
Integration with messaging systems: Kafka, Kinesis
Using Spark with other big data tools (Hive, Delta Lake)
Handling unstructured and semi-structured data

Module 7: Monitoring, Debugging and Production Readiness

Spark UI and Spark History Server
Logging, metrics and integration with Prometheus/Grafana
Debugging common errors and failures (OOM, stage failures)
Deploying Spark applications: cluster management, resource isolation, cost optimization

Module 8: Hands-On Project – Real World Data Pipeline

Designing a data ingestion pipeline: ingest raw data, process, store results
Building Spark job using DataFrame/Dataset API
Applying optimizations, caching, and performance tuning
Deploying job to cluster, monitoring execution, validating results

32h

Ver Curso

Curso Apache Spark Fundamentals

Curso Apache Spark Fundamentals

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices

O que você quer aprender hoje?

Curso Apache Spark Fundamentals

Curso Apache Spark Fundamentals

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices