Curso Apache Spark Application Performance Tuning

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Spark Application Performance Tuning

24 horas
Visão Geral

Este Curso Apache Spark Application Performance Tuning, oferece os principais conceitos e conhecimentos que os desenvolvedores precisam para melhorar o desempenho de seus aplicativos Apache Spark. Você aprenderá como identificar fontes comuns de baixo desempenho em aplicativos Spark, técnicas para evitá-los ou resolvê-los , e práticas recomendadas para monitoramento de aplicativos Spark.

Objetivo

Após realizar este Curso Apache Spark Application Performance Tuning você será capaz de:

  • Entenda a arquitetura do Apache Spark, a execução de trabalhos e como técnicas como execução lenta e pipeline podem melhorar o desempenho do tempo de execução
  • Avalie as características de desempenho das principais estruturas de dados, como RDD e DataFrames
  • Selecione os formatos de arquivo que fornecerão o melhor desempenho para sua aplicação
  • Identifique e resolva problemas de desempenho causados ​​pela distorção de dados
  • Use particionamento, bucketing e otimizações de junção para melhorar o desempenho do SparkSQL
  • Entenda a sobrecarga de desempenho de RDDs, DataFrames e funções definidas pelo usuário baseados em Python
  • Aproveite o cache para melhor desempenho do aplicativo
  • Entenda como funcionam os otimizadores Catalyst e Tungsten
  • Entenda como o Workload XM pode ajudar a solucionar problemas e monitorar proativamente o desempenho dos aplicativos Spark
  • Novos recursos no Spark e especificamente como o mecanismo Adaptive Query Execution melhora o desempenho
Publico Alvo
  • Desenvolvedores de software, engenheiros e cientistas de dados que têm experiência no desenvolvimento de aplicativos Spark e desejam aprender como melhorar o desempenho de seus códigos.
Pre-Requisitos
  • Exemplos do Spark e exercícios práticos são apresentados em Python e é necessária a capacidade de programar nesta linguagem.
  • É assumida familiaridade básica com a linha de comando do Linux.
  • O conhecimento básico de SQL é útil.
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

Spark Architecture

  1. RDDs
  2. DataFrames and Datasets
  3. Lazy Evaluation
  4. Pipelining

Data Sources and Formats

  1. Available Formats Overview
  2. Impact on Performance
  3. The Small Files Problem

Inferring Schemas

  1. The Cost of Inference
  2. Mitigating Tactics

Dealing With Skewed Data

  1. Recognizing Skew
  2. Mitigating Tactics

Catalyst and Tungsten Overview

  1. Catalyst Overview
  2. Tungsten Overview

Mitigating Spark Shuffles

  1. Denormalization
  2. Broadcast Joins
  3. Map-Side Operations
  4. Sort Merge Joins

Partitioned and Bucketed Tables

  1. Partitioned Tables
  2. Bucketed Tables
  3. Impact on Performance

Improving Join Performance

  1. Skewed Joins
  2. Bucketed Joins
  3. Incremental Joins

Pyspark Overhead and UDFs

  1. Pyspark Overhead
  2. Scalar UDFs
  3. Vector UDFs using Apache Arrow
  4. Scala UDFs

Caching Data for Reuse

  1. Caching Options
  2. Impact on Performance
  3. Caching Pitfalls

Workload XM (WXM) Introduction

  1. WXM Overview
  2. WXM for Spark Developers

What's New in Spark 3.0

  1. Adaptive Number of Shuffle Partitions
  2. Skew Joins
  3. Convert Sort Merge Joins to Broadcast Joins
  4. Dynamic Partition Pruning
  5. Dynamic Coalesce Shuffle Partitions
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h