Curso Spark for Big Data Processing

24 horas

Visão Geral

Curso Spark for Big Data Processing: O Apache Sparks se baseia no sucesso do Apache Hadoop de duas maneiras. Primeiro, o Spark executa aplicativos MapReduce uma a duas ordens de magnitude mais rápido que o Hadoop. Segundo, o Spark não só suporta MapReduce orientado a lote, mas também fornece suporte direto para MapReduce com dados de streaming. Além disso, o Spark também suporta diretamente processamento de gráficos e aprendizado de máquina. Os aplicativos Spark podem ser desenvolvidos incrementalmente usando vários shells de linha de comando, incluindo Python, R, SQL, Java e Scala.

Objetivo

Após concluir este Curso Spark for Big Data Processing com sucesso, os alunos serão capazes de:

Descreva a arquitetura do Spark, incluindo gerenciamento de cluster e sistema de arquivos
Explique os componentes de um aplicativo Spark
Implementar um aplicativo Spark baseado em Conjuntos de Dados Distribuídos Resilientes (RDDs)
Interaja com o Spark usando os notebooks Jupyter
Motivar o uso de SQL como API para aplicações MapReduce
Crie e manipule uma tabela relacional usando Spark SQL e DataFrames
Executar MapReduce com streaming Spark
Implementar aplicativos de aprendizado de máquina distribuídos com Spark ML

Publico Alvo

Este Curso Spark for Big Data Processing é destinado a qualquer um que queira entender como implementar aplicativos MapReduce com Spark. Este é um curso prático. Os exercícios são destinados a dar aos participantes experiência em primeira mão com o desenvolvimento de aplicativos Spark.

Materiais

Inglês/Português/Lab Prático

Conteúdo Programatico

Spark Introduction

Spark Architecture and RDD Basics
Spark Shell
Exercise: Starting with Spark Shell and Working with Word Count Example
RDD Lineage and Partitions Basics
Exercise: Working with Scala IDE and Running it via Spark Submit in a Batch Mode

RDDs: Resilient Distributed Datasets

Coding with RDDs
Transformations
Actions
Lazy Evaluation and Optimization
RDDs in MapReduce
Exercise: Working with RDDs
Exercise: Applying the Concepts with Airline POC Data (or some other case study)
What are Notebooks and Setting Up Jupyter Notebook for Python

Spark SQL

Why Spark SQL
What and Why of DataFrames
Exercise: Creating a Table via sqlContext.sql and Checking the Same in HDFS
Creating DataFrames with Scala Examples
Creating DataFrames with Python Examples
Working with JSON Files with Scala
Working with Customized Databricks CSV Library

Working with Spark

Exercise: Starting PySpark and Working with Line Count Example
Exercise: Working on Python Script File and Submission of the Same via Spark Submit
Difference Between Scala and Python
Exercise: Working with Eclipse and Writing the Word Count via Java Code

DataFrames

RDD vs. DataFrames
Unified DataFrames (UDF) in Spark
Working with 30 Data Frame Operations Using Sample Data
Checkpointing and Persist Operations
Creating UDFs and Using Them in DataFrames and via sqlContext.sql

Spark Streaming

Need for Streaming and Streaming Architecture
Lambda Architecture
Spark Streaming Using PySpark
Spark Streaming Using Scala IDE and Executing via spark-submit

Spark MLlib (Machine Learning)

ML Lib
Exercise: Hello MLlib

28 horas

Ver Curso

Curso Spark for Big Data Processing

Curso Spark for Big Data Processing

Visão Geral

Objetivo

Publico Alvo

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

Curso Análise de dados Excel Com Power BI - 20779B

Curso Tableau Fundamentos

Curso QlikView Desenvolvedor

Curso Tableau Advanced

Curso QlikView Designer

Curso Talend Data Integration Foundation

Curso Talend Data Integration Advanced

Curso Tableau Analytics

Curso Advanced Data Analysis and Dashboard Reporting

O que você quer aprender hoje?

Curso Spark for Big Data Processing

Curso Spark for Big Data Processing

Visão Geral

Objetivo

Publico Alvo

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

Curso Análise de dados Excel Com Power BI - 20779B

Curso Tableau Fundamentos

Curso QlikView Desenvolvedor

Curso Tableau Advanced

Curso QlikView Designer

Curso Talend Data Integration Foundation

Curso Talend Data Integration Advanced

Curso Tableau Analytics

Curso Advanced Data Analysis and Dashboard Reporting