Curso Databricks - Optimizing Apache Spark on Databricks

16H

Visão Geral

Neste Curso Databricks - Optimizing Apache Spark™ on Databricks, você explorará os cinco principais problemas que representam a grande maioria dos problemas de desempenho em um aplicativo Apache Spark: distorção, derramamento, embaralhamento, armazenamento e serialização. Com exemplos baseados em conjuntos de dados de 100 GB a 1+ TB, você investigará e diagnosticará fontes de gargalos com a interface do usuário do Spark e aprenderá estratégias de mitigação eficazes. Você também descobrirá novos recursos introduzidos no Spark 3 que podem resolver automaticamente problemas comuns de desempenho. Por fim, você aprenderá a projetar e configurar clusters para obter um desempenho ideal com base nas necessidades e preocupações específicas da equipe.

Objetivo

Após realizar este Curso Databricks - Optimizing Apache Spark™ on Databricks, você será capaz de:

Articular como os cinco problemas de desempenho mais comuns em um aplicativo Spark podem ser mitigados para obter um melhor desempenho do aplicativo
Resuma os problemas de desempenho mais comuns associados à ingestão de dados e como mitigá-los
Articule como os novos recursos do Spark 3.x podem ser empregados para mitigar problemas de desempenho em seus aplicativos Spark
Configure um cluster Spark para obter o máximo desempenho de acordo com os requisitos de trabalho específicos

Pre-Requisitos

Experiência prática no desenvolvimento de aplicativos Apache Spark (mais de 6 meses)
Experiência intermediária em Python ou Scala

Materiais

Português/Inglês + Exercícios + Lab Pratico

Conteúdo Programatico

Module I

Review of Spark architecture and Spark UI
Skew
Spill
Shuffle
Storage
Serialization

Module II

Ingestion basics
Predicate push downs
Disk partitioning
Z-ordering
Bucketing
Optimization with Adaptive Query Execution (AQE)
Designing and configuring clusters for high performance

28 horas

Ver Curso

Curso Databricks - Optimizing Apache Spark on Databricks

Curso Databricks - Optimizing Apache Spark on Databricks

Visão Geral

Objetivo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

Curso Análise de dados Excel Com Power BI - 20779B

Curso Tableau Fundamentos

Curso QlikView Desenvolvedor

Curso Tableau Advanced

Curso QlikView Designer

Curso Talend Data Integration Foundation

Curso Talend Data Integration Advanced

Curso Tableau Analytics

Curso Advanced Data Analysis and Dashboard Reporting

O que você quer aprender hoje?

Curso Databricks - Optimizing Apache Spark on Databricks

Curso Databricks - Optimizing Apache Spark on Databricks

Visão Geral

Objetivo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

Curso Análise de dados Excel Com Power BI - 20779B

Curso Tableau Fundamentos

Curso QlikView Desenvolvedor

Curso Tableau Advanced

Curso QlikView Designer

Curso Talend Data Integration Foundation

Curso Talend Data Integration Advanced

Curso Tableau Analytics

Curso Advanced Data Analysis and Dashboard Reporting