Curso Databricks Apache Spark Programming with Databricks

  • Tableau Data Visualization

Curso Databricks Apache Spark Programming with Databricks

16H
Visão Geral

Neste Curso Databricks Apache Spark™ Programming with Databricks, você explorará os fundamentos do Apache Spark e do Delta Lake em Databricks. Você aprenderá os componentes de arquitetura do Spark, as APIs DataFrame e Structured Streaming e como o Delta Lake pode melhorar seus pipelines de dados. Por fim, você executará consultas de streaming para processar dados de streaming e entender as vantagens de usar o Delta Lake.

NOTA:

Para quem deseja fazer o exame no futuro:

  1. Este curso irá prepará-lo para fazer o exame Databricks Certified Associate Developer for Apache Spark .
Objetivo

Após realizar este Curso Databricks Apache Spark™ Programming with Databricks, você será capaz de:

  • Defina os principais componentes da arquitetura Spark e da hierarquia de execução
  • Descrever como os DataFrames são construídos, transformados e avaliados no Spark
  • Aplique a API DataFrame para explorar, pré-processar, unir e ingerir dados no Spark
  • Aplique a API de streaming estruturado para realizar análises de dados de streaming
  • Navegue pela UI do Spark e descreva como o otimizador de catalisador, o particionamento e o cache afetam o desempenho de execução do Spark
Pre-Requisitos
  • Familiaridade com Python e conceitos básicos de programação, incluindo
  • tipos de dados, listas, dicionários, variáveis, funções, loops, instruções condicionais, tratamento de exceções, acesso a classes e uso de bibliotecas de terceiros
  • Conhecimento básico de SQL, incluindo escrever consultas usando
  • SELECT, WHERE, GROUP BY, ORDER BY, LIMIT e JOIN
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

DataFrames

  1. Introduction: Databricks Ecosystem, Spark Overview, Case Study
  2. Databricks Platform: Databricks Concepts, Databricks Platform.
  3. Spark SQL: Spark SQL, DataFrames, SparkSession.
  4. Reader and Writer: Data Sources, DataFrameReader/Writer.

DataFrames and Transformations

  1. DataFrame and Column: Columns and Expressions, Transformations, Actions, Rows.
  2. Aggregation: Groupby, Grouped Data Methods, Aggregate Functions, Math Functions.
  3. Datetimes: Dates and Timestamps, Datetime Patterns, Date Functions.
  4. Complex types: String Functions, Collection Functions
  5. Additional Functions: Non-aggregate Functions, Na Functions.

Transformations and Spark Internals

  1. Transformations: UDFs: UDFs, Vectorized UDFs, Performance.
  2. Spark Architecture: Spark Cluster, Spark Execution, Shuffling, Query Optimization, Catalyst Optimizer, Adaptive Query Execution
  3. Query Optimization: Query Optimization, Catalyst Optimizer, Adaptive Query Execution
  4. Partitioning: Partitions vs. Cores, Default Shuffle Partitions, Repartition.

Structured Streaming and Delta

  1. Streaming Query: Streaming Concepts, Streaming Query, Transformations, Monitoring.
  2. Processing Streams.b
  3. Delta Lake: Delta Lake Concepts, Batch and Streaming
TENHO INTERESSE

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

24 horas

Curso Análise de dados Excel Com Power BI - 20779B

16 horas

Curso Talend Data Integration Foundation

16 horas

Curso Talend Data Integration Advanced

16 horas

Curso Advanced Data Analysis and Dashboard Reporting

28 horas