Curso Apache Spark Advanced

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Spark Advanced

24 horas
Visão Geral

Este curso avançado de Apache Spark aprofunda o funcionamento interno do framework, com foco em performance, escalabilidade, integração com ecossistemas Big Data e desenvolvimento de aplicações Spark de alto desempenho. O treinamento aborda desde a revisão de conceitos fundamentais até tuning avançado, Spark SQL, Spark Streaming, Machine Learning e integrações com plataformas como Kafka, Cassandra e ElasticSearch, preparando o aluno para projetar, operar e otimizar ambientes Spark em produção.

Objetivo

Após realizar este curso Apache Spark Advanced, você será capaz de:

  • Compreender profundamente como o Apache Spark funciona internamente
  • Analisar e otimizar performance em aplicações Spark
  • Projetar e gerenciar clusters Spark em produção
  • Aplicar boas práticas de leitura, escrita e particionamento de dados
  • Integrar Spark com sistemas NoSQL, mensageria e mecanismos de busca
  • Desenvolver pipelines de dados robustos e escaláveis
  • Implementar Machine Learning avançado com Spark
  • Criar aplicações Spark fault-tolerant e altamente performáticas
Publico Alvo
  • Arquitetos de dados
  • Engenheiros de dados
  • Desenvolvedores Big Data
  • Administradores de plataformas Hadoop/Spark
  • Profissionais de Data Engineering e Analytics
  • Especialistas em Performance e Escalabilidade
Pre-Requisitos
  • Conhecimentos sólidos em Apache Spark ou Hadoop
  • Experiência com Scala, Java ou Python
  • Conhecimentos básicos de SQL
  • Noções de arquitetura distribuída e Big Data
Materiais
Inglês/Portguês/Lab Pratico
Conteúdo Programatico

Module 1: Review of Core Apache Spark Concepts

  1. How Spark Works
  2. RDD Fundamentals
  3. SparkSQL and DataFrames
  4. Spark Streaming Concepts
  5. Machine Learning Basics

Module 2: Understanding Spark Internals for Performance

  1. Schedulers, Jobs, and Tasks
  2. Data Structures, Sets and Data Lakes
  3. Shuffle and Performance
  4. Understanding Data Sources and Partitions
  5. Read, Writes and Performance

Module 3: New Features of Spark 2

  1. API Stability
  2. Core and Spark SQL Changes
  3. Changes to Packaging and Operations

Module 4: Working with Spark

  1. Debugging and Troubleshooting Spark Applications
  2. Developing Data Workflows
  3. Automated Spark Builds Using Maven

Module 5: Clustering with Spark

  1. Running a Spark Cluster
  2. Understanding Cluster Resource Requirements
  3. Managing Memory on Executors and Workers
  4. Managing Memory and Cores Across a Spark Cluster

Module 6: Performance Tuning and Best Practices

  1. Performance Tuning Concepts
  2. Clarifying Best Practices
  3. Performance Tuning Process
  4. Performance Tuning Metrics
  5. SQL Performance Tuning
  6. High Performance Caching Strategies

Module 7: Spark Integration

  1. Implementing Spark on DataStax, Hortonworks and Similar Platforms
  2. Integrating with Cassandra
  3. Integrating with Kafka
  4. Integrating with Elasticsearch
  5. Integrating with Other Compatible NoSQL Implementations

Module 8: Machine Learning with Spark

  1. Common Machine Learning Algorithms
  2. Commonly Used Algorithms with Scala
  3. Machine Learning Libraries: MLlib and H2O
  4. Custom Algorithms Creation

Module 9: Advanced Spark SQL and Spark Streaming

  1. Leveraging Spark 2 API (SparkSession and Related Components)
  2. Developing with Spark DataFrames
  3. Writing Solid Spark Jobs

Module 10: High Performance and Architecture Decisions

  1. Understanding When to Use Spark and When Not to Use Spark
  2. High Performance Spark Applications
  3. Cluster Resource Requirements Review
  4. Creating Fault-Tolerant Spark Applications
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h