Curso Cloudera Developer for Spark & Hadoop

  • Data Science Analytic

Curso Cloudera Developer for Spark & Hadoop

32 horas
Visão Geral

Este Curso Cloudera Developer for Spark & Hadoop, oferece os principais conceitos e conhecimentos que os desenvolvedores precisam para usar o Apache Spark para desenvolver aplicativos paralelos de alto desempenho. Os participantes aprenderão como usar o Spark SQL para consultar dados estruturados e o Spark Streaming para realizar processamento em tempo real em dados de streaming de diversas fontes. Os desenvolvedores também praticarão a criação de aplicativos que usam o núcleo do Spark para executar processamento ETL e algoritmos iterativos. O Curso Cloudera Developer for Spark & Hadoop, aborda como trabalhar com “big data” armazenado em um sistema de arquivos distribuído e executar aplicativos Spark em um cluster Hadoop. Depois de fazer este curso, os participantes estarão preparados para enfrentar desafios do mundo real e construir aplicações para executar decisões mais rápidas, melhores decisões e análises interativas, aplicadas a uma ampla variedade de casos de uso, arquiteturas e indústrias.

Publico Alvo
  • Este Curso Cloudera Developer for Spark & Hadoop, é destinado a desenvolvedores e engenheiros com experiência em programação, mas não é necessário conhecimento prévio de Hadoop e/ou Spark.
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

Introduction to Apache Hadoop and the Hadoop Ecosystem

  1. Apache Hadoop Overview
  2. Data Processing
  3. Introduction to the Hands-On Exercises

Apache Hadoop File Storage

  1. Apache Hadoop Cluster Components
  2. HDFS Architecture
  3. Using HDFS

Distributed Processing on an Apache Hadoop Cluster

  1. YARN Architecture
  2. Working With YARN

Apache Spark Basics

  1. What is Apache Spark?
  2. Starting the Spark Shell
  3. Using the Spark Shell
  4. Getting Started with Datasets and DataFrames
  5. DataFrame Operations

Working with DataFrames and Schemas

  1. Creating DataFrames from Data Sources
  2. Saving DataFrames to Data Sources
  3. DataFrame Schemas
  4. Eager and Lazy Execution

Analyzing Data with DataFrame Queries

  1. Querying DataFrames Using Column Expressions
  2. Grouping and Aggregation Queries
  3. Joining DataFrames

RDD Overview

  1. RDD Overview
  2. RDD Data Sources
  3. Creating and Saving RDDs
  4. RDD Operations

Transforming Data with RDDs

  1. Writing and Passing Transformation Functions
  2. Transformation Execution
  3. Converting Between RDDs and DataFrames

Aggregating Data with Pair RDDs

  1. Querying Tables in Spark Using SQL
  2. Querying Files and Views
  3. The Catalog API
  4. Comparing Spark SQL, Apache Impala, and Apache Hive-on-Spark

Querying Tables and Views with SQL

  1. Querying Tables in Spark Using SQL
  2. Querying Files and Views
  3. The Catalog API

Working with Datasets in Scala

  1. Datasets and DataFrames
  2. Creating Datasets
  3. Loading and Saving Datasets
  4. Dataset Operations

Writing, Configuring, and Running Spark Applications

  1. Writing a Spark Application
  2. Building and Running an Application
  3. Application Deployment Mode
  4. The Spark Application Web UI
  5. Configuring Application Properties

Spark Distributed Processing

  1. Review: Apache Spark on a Cluster
  2. RDD Partitions
  3. Example: Partitioning in Queries
  4. Stages and Tasks
  5. Job Execution Planning
  6. Example: Catalyst Execution Plan
  7. Example: RDD Execution Plan

Distributed Data Persistence

  1. DataFrame and Dataset Persistence
  2. Persistence Storage Levels
  3. Viewing Persisted RDDs

Common Patterns in Spark Data Processing

  1. Common Apache Spark Use Cases
  2. Iterative Algorithms in Apache Spark
  3. Machine Learning
  4. Example: k-means

Introduction to Structured Streaming

  1. Apache Spark Streaming Overview
  2. Creating Streaming DataFrames
  3. Transforming DataFrames
  4. Executing Streaming Queries

Structured Streaming with Apache Kafka

  1. Overview
  2. Receiving Kafka Messages
  3. Sending Kafka Messages

Aggregating and Joining Streaming DataFrames

  1. Streaming Aggregation
  2. Joining Streaming DataFrames

Conclusion

  • Message Processing with Apache Kafka
TENHO INTERESSE

Cursos Relacionados

Curso Fundamentos de Gerenciamento de Dados Mestres

16 horas

Curso Big Data Analyst Mineração de Dados

32 horas

Curso Técnicas de integração de dados ETL

16 horas

Curso Big Data Boot Camp Visão de Negócios

Curso Inteligência Artificial / AI Visão Geral

8 horas

Curso Oracle Fundamentos de Big Data

32 horas

Curso Fundamentos de Qualidade de Dados

16 horas

Curso Marchine Learning Com Hadoop

32 horas

Curso Python for Data Analysis

24 horas