Curso Spark SQL Fundamentals

  • DevOps | CI | CD | Kubernetes | Web3

Curso Spark SQL Fundamentals

16 horas
Visão Geral

O curso Spark SQL oferece uma compreensão completa dos recursos de processamento de dados estruturados no Apache Spark. Os participantes aprenderão como usar a API SQL do Spark e o DataFrame API para realizar consultas, transformações e otimizações em grandes volumes de dados de forma distribuída e eficiente. O curso combina teoria e prática, permitindo aos alunos desenvolver aplicações analíticas robustas e de alto desempenho.

Objetivo

Após realizar este Curso Spark SQL, você será capaz de:

  • Entender o funcionamento interno do Spark SQL e o Catalyst Optimizer.
  • Trabalhar com DataFrames e Datasets de maneira eficiente.
  • Escrever e executar consultas SQL distribuídas.
  • Realizar transformações e agregações de dados complexos.
  • Otimizar consultas e entender o plano de execução.
  • Integrar o Spark SQL com fontes de dados externas (Parquet, Hive, JSON, CSV, etc.).
Publico Alvo
  • Engenheiros de dados e analistas de dados.
  • Desenvolvedores que desejam usar o Spark para consultas SQL distribuídas.
  • Profissionais de BI e cientistas de dados que trabalham com Big Data.
  • Arquitetos de soluções e administradores de clusters Spark.
Pre-Requisitos
  • Conhecimento básico de SQL.
  • Fundamentos de programação em Python ou Scala.
  • Conhecimentos introdutórios sobre Apache Spark e Hadoop são recomendados.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Spark SQL

  1. What is Spark SQL
  2. Evolution from RDDs to DataFrames and Datasets
  3. The Spark SQL Architecture
  4. SparkSession and the SQL Context

Module 2: Working with DataFrames and Datasets

  1. Creating DataFrames from different sources
  2. Schema inference and manual schema definition
  3. DataFrame operations and transformations
  4. Converting between DataFrames and Datasets

Module 3: Querying Data Using Spark SQL

  1. Executing SQL queries with SparkSession
  2. Registering DataFrames as temporary views
  3. Running SQL queries on structured data
  4. Working with user-defined functions (UDFs)

Module 4: Data Sources and Formats

  1. Reading and writing data in different formats: CSV, JSON, Parquet, ORC
  2. Working with external databases using JDBC
  3. Integrating with Hive Metastore
  4. Partitioning and Bucketing

Module 5: Performance Optimization

  1. Understanding the Catalyst Optimizer
  2. Query execution plans and physical planning
  3. Tungsten engine and memory management
  4. Techniques for caching and persistence

Module 6: Aggregations and Window Functions

  1. Grouping and aggregating data
  2. Advanced SQL functions in Spark
  3. Window functions for analytical queries

Module 7: Integration and Real-World Scenarios

  1. Using Spark SQL in ETL pipelines
  2. Joining Spark SQL with Spark Streaming
  3. Working with Delta Lake and structured streaming
  4. Best practices and performance tuning

Module 8: Hands-on Labs

  1. DataFrame creation and transformations
  2. Executing and optimizing SQL queries
  3. Integrating Spark SQL with data lakes
  4. Practical exercises on query performance
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h