Curso Databricks - Optimizing Apache Spark on Databricks

  • Tableau Data Visualization

Curso Databricks - Optimizing Apache Spark on Databricks

16H
Visão Geral

Neste Curso Databricks - Optimizing Apache Spark™ on Databricks,  você explorará os cinco principais problemas que representam a grande maioria dos problemas de desempenho em um aplicativo Apache Spark: distorção, derramamento, embaralhamento, armazenamento e serialização. Com exemplos baseados em conjuntos de dados de 100 GB a 1+ TB, você investigará e diagnosticará fontes de gargalos com a interface do usuário do Spark e aprenderá estratégias de mitigação eficazes. Você também descobrirá novos recursos introduzidos no Spark 3 que podem resolver automaticamente problemas comuns de desempenho. Por fim, você aprenderá a projetar e configurar clusters para obter um desempenho ideal com base nas necessidades e preocupações específicas da equipe.

Objetivo

Após realizar este Curso Databricks - Optimizing Apache Spark™ on Databricks, você será capaz de:

  • Articular como os cinco problemas de desempenho mais comuns em um aplicativo Spark podem ser mitigados para obter um melhor desempenho do aplicativo
  • Resuma os problemas de desempenho mais comuns associados à ingestão de dados e como mitigá-los
  • Articule como os novos recursos do Spark 3.x podem ser empregados para mitigar problemas de desempenho em seus aplicativos Spark
  • Configure um cluster Spark para obter o máximo desempenho de acordo com os requisitos de trabalho específicos
Pre-Requisitos
  • Experiência prática no desenvolvimento de aplicativos Apache Spark (mais de 6 meses)
  • Experiência intermediária em Python ou Scala
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module I

  1. Review of Spark architecture and Spark UI
  2. Skew
  3. Spill
  4. Shuffle
  5. Storage
  6. Serialization

Module II

  1. Ingestion basics
  2. Predicate push downs
  3. Disk partitioning
  4. Z-ordering
  5. Bucketing
  6. Optimization with Adaptive Query Execution (AQE)
  7. Designing and configuring clusters for high performance
TENHO INTERESSE

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

24 horas

Curso Análise de dados Excel Com Power BI - 20779B

16 horas

Curso Talend Data Integration Foundation

16 horas

Curso Talend Data Integration Advanced

16 horas

Curso Advanced Data Analysis and Dashboard Reporting

28 horas