Visão Geral
Neste Curso Databricks - Optimizing Apache Spark™ on Databricks, você explorará os cinco principais problemas que representam a grande maioria dos problemas de desempenho em um aplicativo Apache Spark: distorção, derramamento, embaralhamento, armazenamento e serialização. Com exemplos baseados em conjuntos de dados de 100 GB a 1+ TB, você investigará e diagnosticará fontes de gargalos com a interface do usuário do Spark e aprenderá estratégias de mitigação eficazes. Você também descobrirá novos recursos introduzidos no Spark 3 que podem resolver automaticamente problemas comuns de desempenho. Por fim, você aprenderá a projetar e configurar clusters para obter um desempenho ideal com base nas necessidades e preocupações específicas da equipe.