Curso Databricks - Optimizing Apache Spark on Databricks
16HVisão Geral
Neste Curso Databricks - Optimizing Apache Spark™ on Databricks, você explorará os cinco principais problemas que representam a grande maioria dos problemas de desempenho em um aplicativo Apache Spark: distorção, derramamento, embaralhamento, armazenamento e serialização. Com exemplos baseados em conjuntos de dados de 100 GB a 1+ TB, você investigará e diagnosticará fontes de gargalos com a interface do usuário do Spark e aprenderá estratégias de mitigação eficazes. Você também descobrirá novos recursos introduzidos no Spark 3 que podem resolver automaticamente problemas comuns de desempenho. Por fim, você aprenderá a projetar e configurar clusters para obter um desempenho ideal com base nas necessidades e preocupações específicas da equipe.
Objetivo
Após realizar este Curso Databricks - Optimizing Apache Spark™ on Databricks, você será capaz de:
- Articular como os cinco problemas de desempenho mais comuns em um aplicativo Spark podem ser mitigados para obter um melhor desempenho do aplicativo
- Resuma os problemas de desempenho mais comuns associados à ingestão de dados e como mitigá-los
- Articule como os novos recursos do Spark 3.x podem ser empregados para mitigar problemas de desempenho em seus aplicativos Spark
- Configure um cluster Spark para obter o máximo desempenho de acordo com os requisitos de trabalho específicos
Pre-Requisitos
- Experiência prática no desenvolvimento de aplicativos Apache Spark (mais de 6 meses)
- Experiência intermediária em Python ou Scala
Materiais
Português/Inglês + Exercícios + Lab PraticoConteúdo Programatico
Module I
- Review of Spark architecture and Spark UI
- Skew
- Spill
- Shuffle
- Storage
- Serialization
Module II
- Ingestion basics
- Predicate push downs
- Disk partitioning
- Z-ordering
- Bucketing
- Optimization with Adaptive Query Execution (AQE)
- Designing and configuring clusters for high performance