Visão Geral
Neste Curso Databricks Apache Spark™ Programming with Databricks, você explorará os fundamentos do Apache Spark e do Delta Lake em Databricks. Você aprenderá os componentes de arquitetura do Spark, as APIs DataFrame e Structured Streaming e como o Delta Lake pode melhorar seus pipelines de dados. Por fim, você executará consultas de streaming para processar dados de streaming e entender as vantagens de usar o Delta Lake.
NOTA:
Para quem deseja fazer o exame no futuro:
- Este curso irá prepará-lo para fazer o exame Databricks Certified Associate Developer for Apache Spark .
Objetivo
Após realizar este Curso Databricks Apache Spark™ Programming with Databricks, você será capaz de:
- Defina os principais componentes da arquitetura Spark e da hierarquia de execução
- Descrever como os DataFrames são construídos, transformados e avaliados no Spark
- Aplique a API DataFrame para explorar, pré-processar, unir e ingerir dados no Spark
- Aplique a API de streaming estruturado para realizar análises de dados de streaming
- Navegue pela UI do Spark e descreva como o otimizador de catalisador, o particionamento e o cache afetam o desempenho de execução do Spark
Pre-Requisitos
- Familiaridade com Python e conceitos básicos de programação, incluindo
- tipos de dados, listas, dicionários, variáveis, funções, loops, instruções condicionais, tratamento de exceções, acesso a classes e uso de bibliotecas de terceiros
- Conhecimento básico de SQL, incluindo escrever consultas usando
- SELECT, WHERE, GROUP BY, ORDER BY, LIMIT e JOIN
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico
DataFrames
- Introduction: Databricks Ecosystem, Spark Overview, Case Study
- Databricks Platform: Databricks Concepts, Databricks Platform.
- Spark SQL: Spark SQL, DataFrames, SparkSession.
- Reader and Writer: Data Sources, DataFrameReader/Writer.
DataFrames and Transformations
- DataFrame and Column: Columns and Expressions, Transformations, Actions, Rows.
- Aggregation: Groupby, Grouped Data Methods, Aggregate Functions, Math Functions.
- Datetimes: Dates and Timestamps, Datetime Patterns, Date Functions.
- Complex types: String Functions, Collection Functions
- Additional Functions: Non-aggregate Functions, Na Functions.
Transformations and Spark Internals
- Transformations: UDFs: UDFs, Vectorized UDFs, Performance.
- Spark Architecture: Spark Cluster, Spark Execution, Shuffling, Query Optimization, Catalyst Optimizer, Adaptive Query Execution
- Query Optimization: Query Optimization, Catalyst Optimizer, Adaptive Query Execution
- Partitioning: Partitions vs. Cores, Default Shuffle Partitions, Repartition.
Structured Streaming and Delta
- Streaming Query: Streaming Concepts, Streaming Query, Transformations, Monitoring.
- Processing Streams.b
- Delta Lake: Delta Lake Concepts, Batch and Streaming
TENHO INTERESSE