Curso Apache Spark for Data Scientists
24 horasVisão Geral
Curso Apache Spark for Data Scientists. Apache Spark é um poderoso mecanismo de processamento de código aberto para dados no cluster Hadoop, otimizado para velocidade, facilidade de uso e análises sofisticadas. A estrutura Spark oferece suporte ao processamento de dados de streaming e algoritmos iterativos complexos, permitindo que os aplicativos sejam executados até 100 vezes mais rápido do que os programas Hadoop MapReduce tradicionais. Com o Spark, você pode escrever aplicativos sofisticados para executar decisões mais rápidas e ações em tempo real para uma ampla variedade de casos de uso, arquiteturas e setores.
Este Curso Apache Spark for Data Scientists, explora o uso do Spark para atividades comuns relacionadas a dados a partir de uma perspectiva de ciência de dados. Você aprenderá a construir aplicativos unificados de big data combinando análises em lote, streaming e interativas em seus dados.
Objetivo
Após realizar este Curso Apache Spark for Data Scientists, você será capaz de:
- Os fundamentos da arquitetura e dos aplicativos Spark
- Para executar programas Spark
- Para criar e manipular RDDs (Resilient Distributed Datasets) e UDFs (Unified Data Frames)
- Para integrar o aprendizado de máquina em aplicativos Spark
- Para usar o Spark Streaming
Pre-Requisitos
- Conhecimento de programação Java
- Conhecimento de SQL (familiaridade com os fundamentos de SQL)
- Conhecimentos básicos de Estatística e Probabilidade
- Formação em ciência de dados
Materiais
Portugues/Inglês + Lab PraticoConteúdo Programatico
Introduction
- Data Science: The State of the Art
- Hadoop, Yarn, and Spark
- Architectural Overview
- Spark and Storm
- MLib and Mahout
- Distributed vs. Local Run Modes
- Hello, Spark
Spark Overview
- Spark Core
- Spark SQL
- Spark and Hive
- MLib
- Mahout
- Spark Streaming
- Spark API
DataFrames
- DataFrames and Resilient Distributed Datasets (RDDs)
- Partitions
- DataFrame Types
- DataFrame Operations
- Map/Reduce with DataFrames
Spark SQL
- Spark SQL Overview
- Data stores: HDFS, Cassandra, HBase, Hive, and S3
- Table Definitions
- ETL in Spark
- Queries
Spark MLib
- MLib overview
- MLib Algorithms Overview
Spark Streaming
- Streaming overview
- Real-time data ingestion
- State
- Window Operations
Spark GraphX
- GraphX overview
- ETL with GraphX
- Graph computation
Performance and Tuning
- Broadcast variables
- Accumulators
- Memory Management
Cluster Mode
- Standalone Cluster
- Masters and Workers
- Configurations
- Working with large data sets