Curso Cloudera Data Engineering Developing Applications with Apache Spark

32 horas

Visão Geral

Neste Curso Cloudera Data Engineering Developing Applications with Apache Spark, você aprenderá os principais conceitos e conhecimentos que os desenvolvedores precisam para usar o Apache Spark para desenvolver aplicativos paralelos de alto desempenho na Cloudera Data Platform (CDP).

Por meio de uma combinação de laboratórios práticos e palestras interativas, você aprenderá a escrever aplicativos Spark que se integram aos principais componentes do CDP, como Hive e Kafka. Aprenda também como usar o Spark SQL para consultar dados estruturados, como usar o Spark Streaming para realizar processamento em tempo real em dados de streaming e como trabalhar com “big data” armazenado em um sistema de arquivos distribuído.

Objetivo

Após realizar este Curso Cloudera Data Engineering Developing Applications with Apache Spark, você será capaz de:

Distribuir, armazenar e processar dados em um cluster CDP
Escreva, configure e implante aplicativos Apache Spark
Use os intérpretes Spark e os aplicativos Spark para explorar, processar e analisar dados distribuídos
Consultar dados usando tabelas Spark SQL, DataFrames e Hive
Use o Spark Streaming junto com o Kafka para processar um fluxo de dados

Informações Gerais

Carga Horaria: 32h
Se noturno este curso e ministrado de segunda-feira a quinta-feira (às sexta-feira não haverá aula), das 19h às 23h, total de 8 encontros,
Se aos sábados este curso e ministrado das 09h às 18h, total de 4 encontros,

In-company

Se noturno este curso e ministrado de segunda-feira a quinta-feira (às sexta-feira não haverá aula), das 19h às 23h, total de 8 encontros,
Se aos sábados este curso e ministrado das 09h às 18h, total de 4 encontros,
Ou Intercalado Segunda/quarta e Sexta-feira
Integral/meio período sob consulta, de horários,

Formato de entrega:

100% on-line via Microsoft Teams na presença de um instrutor/consultor ativo no mercado e docente em sala de aula.
Apostila + Lab

Materiais

Português/Inglês + Exercícios + Lab Pratico

Conteúdo Programatico

Introduction to Zeppelin

Why Notebooks?
Zeppelin Notes
Demo: Apache Spark In 5 Minutes

HDFS Introduction

HDFS Overview
HDFS Components and Interactions
Additional HDFS Interactions
Ozone Overview
Exercise: Working with HDFS

YARN Introduction

YARN Overview
YARN Components and Interaction
Working with YARN
Exercise: Working with YARN

Distributed Processing History

The Disk Years: 2000 ->2010
The Memory Years: 2010 ->2020
The GPU Years: 2020 ->

Working with RDDs

Resilient Distributed Datasets (RDDs)
Exercise: Working with RDDs

Working with DataFrames

Introduction to DataFrames

Working with DataFrames

About Hive
Module 8: Hive and Spark Integration
Hive and Spark Integration
Exercise: Spark Integration with Hive

Data Visualization with Zeppelin

Introduction to Data Visualization with Zeppelin
Zeppelin Analytics
Zeppelin Collaboration
Exercise: AdventureWorks

Distributed Processing Challenges

Shuffle
Skew
Order

Spark Distributed Processing

Spark Distributed Processing
Exercise: Explore Query ExecutionOrder

Spark Distributed Persistence

DataFrame and Dataset Persistence
Persistence Storage Levels
Viewing Persisted RDDs
Exercise: Persisting DataFrames

Writing, Configuring, and Running Spark Applications

Writing a Spark Application
Building and Running an Application
Application Deployment Mode
The Spark Application Web UI
Configuring Application Properties
Exercise: Writing, Configuring, and Running a Spark Application

Introduction to Structured Streaming

Introduction to Structured Streaming
Exercise: Processing Streaming Data

Message Processing with Apache Kafka

What is Apache Kafka?
Apache Kafka Overview
Scaling Apache Kafka
Apache Kafka Cluster Architecture
Apache Kafka Command Line Tools

Structured Streaming with Apache Kafka

Receiving Kafka Messages
Sending Kafka Messages
Exercise: Working with Kafka Streaming Messages

Aggregating and Joining Streaming DataFrames

Streaming Aggregation
Joining Streaming DataFrames
Exercise: Aggregating and Joining Streaming DataFrames

Appendix: Working with Datasets in Scala

Working with Datasets in Scala
Exercise: Using Datasets in Scala

TENHO INTERESSE

Cursos Relacionados

Curso Data Lake Inteligente Fundamentos para Analistas

16 horas

Ver Curso

Curso DBA Bigdata Greenplum

24 Horas

Ver Curso

Curso Apache Spark and Scala

24 horas de curso pratico

Ver Curso

Curso BigQuery Google Foudation

16 horas

Ver Curso

Curso Bamboo Integração contínua

24 Horas

Ver Curso

Curso Big Data Foundation

16 horas

Ver Curso

Curso Python 6 Projetos Python com Programacao Foundation to Advanced

60 horas

Ver Curso

Curso Big Data Business Intelligence for Criminal Intelligence Analysis

40h

Ver Curso

Curso Cloudera for Apache Kafka Overview

32 horas

Ver Curso

Curso SMACK Stack for Data Science

16 horas

Ver Curso

Curso Cloudera Data Engineering Developing Applications with Apache Spark

Curso Cloudera Data Engineering Developing Applications with Apache Spark

Visão Geral

Objetivo

Informações Gerais

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Data Lake Inteligente Fundamentos para Analistas

Curso DBA Bigdata Greenplum

Curso Apache Spark and Scala

Curso BigQuery Google Foudation

Curso Bamboo Integração contínua

Curso Big Data Foundation

Curso Python 6 Projetos Python com Programacao Foundation to Advanced

Curso Big Data Business Intelligence for Criminal Intelligence Analysis

Curso Cloudera for Apache Kafka Overview

Curso SMACK Stack for Data Science

O que você quer aprender hoje?

Curso Cloudera Data Engineering Developing Applications with Apache Spark

Curso Cloudera Data Engineering Developing Applications with Apache Spark

Visão Geral

Objetivo

Informações Gerais

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Data Lake Inteligente Fundamentos para Analistas

Curso DBA Bigdata Greenplum

Curso Apache Spark and Scala

Curso BigQuery Google Foudation

Curso Bamboo Integração contínua

Curso Big Data Foundation

Curso Python 6 Projetos Python com Programacao Foundation to Advanced

Curso Big Data Business Intelligence for Criminal Intelligence Analysis

Curso Cloudera for Apache Kafka Overview

Curso SMACK Stack for Data Science