Curso Apache Spark for Data Scientists

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Spark for Data Scientists

24 horas
Visão Geral

Curso Apache Spark for Data Scientists. Apache Spark é um poderoso mecanismo de processamento de código aberto para dados no cluster Hadoop, otimizado para velocidade, facilidade de uso e análises sofisticadas. A estrutura Spark oferece suporte ao processamento de dados de streaming e algoritmos iterativos complexos, permitindo que os aplicativos sejam executados até 100 vezes mais rápido do que os programas Hadoop MapReduce tradicionais. Com o Spark, você pode escrever aplicativos sofisticados para executar decisões mais rápidas e ações em tempo real para uma ampla variedade de casos de uso, arquiteturas e setores.

Este Curso Apache Spark for Data Scientists, explora o uso do Spark para atividades comuns relacionadas a dados a partir de uma perspectiva de ciência de dados. Você aprenderá a construir aplicativos unificados de big data combinando análises em lote, streaming e interativas em seus dados.

Objetivo

Após realizar este Curso Apache Spark for Data Scientists, você será capaz de:

  • Os fundamentos da arquitetura e dos aplicativos Spark
  • Para executar programas Spark
  • Para criar e manipular RDDs (Resilient Distributed Datasets) e UDFs (Unified Data Frames)
  • Para integrar o aprendizado de máquina em aplicativos Spark
  • Para usar o Spark Streaming
Pre-Requisitos
  • Conhecimento de programação Java
  • Conhecimento de SQL (familiaridade com os fundamentos de SQL)
  • Conhecimentos básicos de Estatística e Probabilidade
  • Formação em ciência de dados
Materiais
Portugues/Inglês + Lab Pratico
Conteúdo Programatico

Introduction

  1. Data Science: The State of the Art
  2. Hadoop, Yarn, and Spark
  3. Architectural Overview
  4. Spark and Storm
  5. MLib and Mahout
  6. Distributed vs. Local Run Modes
  7. Hello, Spark

Spark Overview

  1. Spark Core
  2. Spark SQL
  3. Spark and Hive
  4. MLib
  5. Mahout
  6. Spark Streaming
  7. Spark API

DataFrames

  1. DataFrames and Resilient Distributed Datasets (RDDs)
  2. Partitions
  3. DataFrame Types
  4. DataFrame Operations
  5. Map/Reduce with DataFrames

Spark SQL

  1. Spark SQL Overview
  2. Data stores: HDFS, Cassandra, HBase, Hive, and S3
  3. Table Definitions
  4. ETL in Spark
  5. Queries

Spark MLib

  1. MLib overview
  2. MLib Algorithms Overview

Spark Streaming

  1. Streaming overview
  2. Real-time data ingestion
  3. State
  4. Window Operations

Spark GraphX

  1. GraphX overview
  2. ETL with GraphX
  3. Graph computation

Performance and Tuning

  1. Broadcast variables
  2. Accumulators
  3. Memory Management

Cluster Mode

  1. Standalone Cluster
  2. Masters and Workers
  3. Configurations
  4. Working with large data sets
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h