Curso Spark for Big Data Processing

  • Tableau Data Visualization

Curso Spark for Big Data Processing

24 horas
Visão Geral

Curso Spark for Big Data Processing: O Apache Sparks se baseia no sucesso do Apache Hadoop de duas maneiras. Primeiro, o Spark executa aplicativos MapReduce uma a duas ordens de magnitude mais rápido que o Hadoop. Segundo, o Spark não só suporta MapReduce orientado a lote, mas também fornece suporte direto para MapReduce com dados de streaming. Além disso, o Spark também suporta diretamente processamento de gráficos e aprendizado de máquina. Os aplicativos Spark podem ser desenvolvidos incrementalmente usando vários shells de linha de comando, incluindo Python, R, SQL, Java e Scala.

Objetivo

Após concluir este Curso Spark for Big Data Processing com sucesso, os alunos serão capazes de:

  • Descreva a arquitetura do Spark, incluindo gerenciamento de cluster e sistema de arquivos
  • Explique os componentes de um aplicativo Spark
  • Implementar um aplicativo Spark baseado em Conjuntos de Dados Distribuídos Resilientes (RDDs)
  • Interaja com o Spark usando os notebooks Jupyter
  • Motivar o uso de SQL como API para aplicações MapReduce
  • Crie e manipule uma tabela relacional usando Spark SQL e DataFrames
  • Executar MapReduce com streaming Spark
  • Implementar aplicativos de aprendizado de máquina distribuídos com Spark ML
Publico Alvo

Este Curso Spark for Big Data Processing é destinado a qualquer um que queira entender como implementar aplicativos MapReduce com Spark. Este é um curso prático. Os exercícios são destinados a dar aos participantes experiência em primeira mão com o desenvolvimento de aplicativos Spark.

Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

Spark Introduction

  1. Spark Architecture and RDD Basics
  2. Spark Shell
  3. Exercise: Starting with Spark Shell and Working with Word Count Example
  4. RDD Lineage and Partitions Basics
  5. Exercise: Working with Scala IDE and Running it via Spark Submit in a Batch Mode

RDDs: Resilient Distributed Datasets

  1. Coding with RDDs
  2. Transformations
  3. Actions
  4. Lazy Evaluation and Optimization
  5. RDDs in MapReduce
  6. Exercise: Working with RDDs
  7. Exercise: Applying the Concepts with Airline POC Data (or some other case study)
  8. What are Notebooks and Setting Up Jupyter Notebook for Python

Spark SQL

  1. Why Spark SQL
  2. What and Why of DataFrames
  3. Exercise: Creating a Table via sqlContext.sql and Checking the Same in HDFS
  4. Creating DataFrames with Scala Examples
  5. Creating DataFrames with Python Examples
  6. Working with JSON Files with Scala
  7. Working with Customized Databricks CSV Library

Working with Spark

  1. Exercise: Starting PySpark and Working with Line Count Example
  2. Exercise: Working on Python Script File and Submission of the Same via Spark Submit
  3. Difference Between Scala and Python
  4. Exercise: Working with Eclipse and Writing the Word Count via Java Code

DataFrames

  1. RDD vs. DataFrames
  2. Unified DataFrames (UDF) in Spark
  3. Working with 30 Data Frame Operations Using Sample Data
  4. Checkpointing and Persist Operations
  5. Creating UDFs and Using Them in DataFrames and via sqlContext.sql

Spark Streaming

  1. Need for Streaming and Streaming Architecture
  2. Lambda Architecture
  3. Spark Streaming Using PySpark
  4. Spark Streaming Using Scala IDE and Executing via spark-submit

Spark MLlib (Machine Learning)

  1. ML Lib
  2. Exercise: Hello MLlib
TENHO INTERESSE

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

24 horas

Curso Análise de dados Excel Com Power BI - 20779B

16 horas

Curso Talend Data Integration Foundation

16 horas

Curso Talend Data Integration Advanced

16 horas

Curso Advanced Data Analysis and Dashboard Reporting

28 horas