Curso Cloudera Data Engineering Developing Applications with Apache Spark

  • Big Data

Curso Cloudera Data Engineering Developing Applications with Apache Spark

32 horas
Visão Geral

Neste Curso Cloudera Data Engineering Developing Applications with Apache Spark, você aprenderá os principais conceitos e conhecimentos que os desenvolvedores precisam para usar o Apache Spark para desenvolver aplicativos paralelos de alto desempenho na Cloudera Data Platform (CDP).

Por meio de uma combinação de laboratórios práticos e palestras interativas, você aprenderá a escrever aplicativos Spark que se integram aos principais componentes do CDP, como Hive e Kafka. Aprenda também como usar o Spark SQL para consultar dados estruturados, como usar o Spark Streaming para realizar processamento em tempo real em dados de streaming e como trabalhar com “big data” armazenado em um sistema de arquivos distribuído.

Objetivo

Após realizar este Curso Cloudera Data Engineering Developing Applications with Apache Spark, você será capaz de:

  • Distribuir, armazenar e processar dados em um cluster CDP
  • Escreva, configure e implante aplicativos Apache Spark
  • Use os intérpretes Spark e os aplicativos Spark para explorar, processar e analisar dados distribuídos
  • Consultar dados usando tabelas Spark SQL, DataFrames e Hive
  • Use o Spark Streaming junto com o Kafka para processar um fluxo de dados
Informações Gerais
  • Carga Horaria: 32h
  • Se noturno este curso e ministrado de segunda-feira a quinta-feira (às sexta-feira não haverá aula), das 19h às 23h, total de 8 encontros,
  • Se aos sábados este curso e ministrado das 09h às 18h, total de 4 encontros,

In-company

  • Se noturno este curso e ministrado de segunda-feira a quinta-feira (às sexta-feira não haverá aula), das 19h às 23h, total de 8 encontros,
  • Se aos sábados este curso e ministrado das 09h às 18h, total de 4 encontros,
  • Ou Intercalado Segunda/quarta e Sexta-feira 
  • Integral/meio período sob consulta, de horários,

Formato de entrega:

  • 100% on-line via Microsoft Teams na presença de um instrutor/consultor ativo no mercado e docente em sala de aula.
  • Apostila + Lab
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Introduction to Zeppelin

  1. Why Notebooks?
  2. Zeppelin Notes
  3. Demo: Apache Spark In 5 Minutes

HDFS Introduction

  1. HDFS Overview
  2. HDFS Components and Interactions
  3. Additional HDFS Interactions
  4. Ozone Overview
  5. Exercise: Working with HDFS

YARN Introduction

  1. YARN Overview
  2. YARN Components and Interaction
  3. Working with YARN
  4. Exercise: Working with YARN

Distributed Processing History

  1. The Disk Years: 2000 ->2010
  2. The Memory Years: 2010 ->2020
  3. The GPU Years: 2020 ->

Working with RDDs

  1. Resilient Distributed Datasets (RDDs)
  2. Exercise: Working with RDDs

Working with DataFrames

  1. Introduction to DataFrames

Working with DataFrames

  1. About Hive
  2.  Module 8: Hive and Spark Integration
  3. Hive and Spark Integration
  4. Exercise: Spark Integration with Hive

Data Visualization with Zeppelin

  1. Introduction to Data Visualization with Zeppelin
  2. Zeppelin Analytics
  3. Zeppelin Collaboration
  4. Exercise: AdventureWorks

Distributed Processing Challenges

  1. Shuffle
  2. Skew
  3. Order

Spark Distributed Processing

  1. Spark Distributed Processing
  2. Exercise: Explore Query ExecutionOrder

Spark Distributed Persistence

  1. DataFrame and Dataset Persistence
  2. Persistence Storage Levels
  3. Viewing Persisted RDDs
  4. Exercise: Persisting DataFrames

Writing, Configuring, and Running Spark Applications

  1. Writing a Spark Application
  2. Building and Running an Application
  3. Application Deployment Mode
  4. The Spark Application Web UI
  5. Configuring Application Properties
  6. Exercise: Writing, Configuring, and Running a Spark Application

Introduction to Structured Streaming

  1. Introduction to Structured Streaming
  2. Exercise: Processing Streaming Data

Message Processing with Apache Kafka

  1. What is Apache Kafka?
  2. Apache Kafka Overview
  3. Scaling Apache Kafka
  4. Apache Kafka Cluster Architecture
  5. Apache Kafka Command Line Tools

Structured Streaming with Apache Kafka

  1. Receiving Kafka Messages
  2. Sending Kafka Messages
  3. Exercise: Working with Kafka Streaming Messages

Aggregating and Joining Streaming DataFrames

  1. Streaming Aggregation
  2. Joining Streaming DataFrames
  3. Exercise: Aggregating and Joining Streaming DataFrames

Appendix: Working with Datasets in Scala

  1. Working with Datasets in Scala
  2. Exercise: Using Datasets in Scala
TENHO INTERESSE

Cursos Relacionados

Curso Data Lake Inteligente Fundamentos para Analistas

16 horas

Curso Apache Spark and Scala

24 horas de curso pratico

Curso BigQuery Google Foudation

16 horas

Curso Bamboo Integração contínua

24 Horas

Curso Python 6 Projetos Python com Programacao Foundation to Advanced

60 horas

Curso Big Data Business Intelligence for Criminal Intelligence Analysis

40h

Curso Cloudera for Apache Kafka Overview

32 horas

Curso SMACK Stack for Data Science

16 horas