Visão Geral
Curso Spark for Big Data Processing: O Apache Sparks se baseia no sucesso do Apache Hadoop de duas maneiras. Primeiro, o Spark executa aplicativos MapReduce uma a duas ordens de magnitude mais rápido que o Hadoop. Segundo, o Spark não só suporta MapReduce orientado a lote, mas também fornece suporte direto para MapReduce com dados de streaming. Além disso, o Spark também suporta diretamente processamento de gráficos e aprendizado de máquina. Os aplicativos Spark podem ser desenvolvidos incrementalmente usando vários shells de linha de comando, incluindo Python, R, SQL, Java e Scala.
Objetivo
Após concluir este Curso Spark for Big Data Processing com sucesso, os alunos serão capazes de:
- Descreva a arquitetura do Spark, incluindo gerenciamento de cluster e sistema de arquivos
- Explique os componentes de um aplicativo Spark
- Implementar um aplicativo Spark baseado em Conjuntos de Dados Distribuídos Resilientes (RDDs)
- Interaja com o Spark usando os notebooks Jupyter
- Motivar o uso de SQL como API para aplicações MapReduce
- Crie e manipule uma tabela relacional usando Spark SQL e DataFrames
- Executar MapReduce com streaming Spark
- Implementar aplicativos de aprendizado de máquina distribuídos com Spark ML
Publico Alvo
Este Curso Spark for Big Data Processing é destinado a qualquer um que queira entender como implementar aplicativos MapReduce com Spark. Este é um curso prático. Os exercícios são destinados a dar aos participantes experiência em primeira mão com o desenvolvimento de aplicativos Spark.
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico
Spark Introduction
- Spark Architecture and RDD Basics
- Spark Shell
- Exercise: Starting with Spark Shell and Working with Word Count Example
- RDD Lineage and Partitions Basics
- Exercise: Working with Scala IDE and Running it via Spark Submit in a Batch Mode
RDDs: Resilient Distributed Datasets
- Coding with RDDs
- Transformations
- Actions
- Lazy Evaluation and Optimization
- RDDs in MapReduce
- Exercise: Working with RDDs
- Exercise: Applying the Concepts with Airline POC Data (or some other case study)
- What are Notebooks and Setting Up Jupyter Notebook for Python
Spark SQL
- Why Spark SQL
- What and Why of DataFrames
- Exercise: Creating a Table via sqlContext.sql and Checking the Same in HDFS
- Creating DataFrames with Scala Examples
- Creating DataFrames with Python Examples
- Working with JSON Files with Scala
- Working with Customized Databricks CSV Library
Working with Spark
- Exercise: Starting PySpark and Working with Line Count Example
- Exercise: Working on Python Script File and Submission of the Same via Spark Submit
- Difference Between Scala and Python
- Exercise: Working with Eclipse and Writing the Word Count via Java Code
DataFrames
- RDD vs. DataFrames
- Unified DataFrames (UDF) in Spark
- Working with 30 Data Frame Operations Using Sample Data
- Checkpointing and Persist Operations
- Creating UDFs and Using Them in DataFrames and via sqlContext.sql
Spark Streaming
- Need for Streaming and Streaming Architecture
- Lambda Architecture
- Spark Streaming Using PySpark
- Spark Streaming Using Scala IDE and Executing via spark-submit
Spark MLlib (Machine Learning)
- ML Lib
- Exercise: Hello MLlib
TENHO INTERESSE