Curso Analyzing Big Data with R Programming

  • Big Data

Curso Analyzing Big Data with R Programming

24 horas
Visão Geral

Este Curso Analisando Big Data com R Programming, ensina aos participantes como usar a análise distribuída na memória/em disco usando H20, Hadoop e Apache Spark, e como integrar o Microsoft Machine Learning Server e o R.

Objetivo

Após realizar este Curso Analisando Big Data com R Programming, você será capaz de:

 

  • Entenda como R funciona com grandes conjuntos de dados
  • Gerenciar big data na memória com data.table
  • Realizar análise exploratória de dados com data.table
  • Aprenda estratégias de gerenciamento de big data, como amostragem, chunk-and-pull e push de computação para o banco de dados
  • Execute consultas SQL diretamente em dataframes R usando DuckDB
  • Use o DuckDB como um back-end de falta de memória para quadros de dados R
  • Realize operações de aprendizado de máquina usando mlr3
  • Interface com Apache Spark usando Sparklyr ou SparkR
  • Use H2O para coleta de dados e aprendizado de máquina
Pre-Requisitos

Além da experiência profissional, os alunos que frequentem este curso deverão ter:

  • Experiência de programação usando R e familiaridade com pacotes R comuns
  • Conhecimento de métodos estatísticos comuns e melhores práticas de análise de dados
  • Conhecimento básico do sistema operacional Microsoft Windows e sua funcionalidade principal
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Introduction: 

  1. Does R work with big datasets?
  2. What challenges does big data introduce when using R?
  3. ETL and descriptive data tasks
  4. Modeling tasks, optimization challenges

In-memory Big Data: Data.table

  1. Why do we need data.table?
  2. The i and the j arguments in data.table
  3. Renaming columns
  4. Adding new columns
  5. Binning data (continuous to categorical)
  6. Combining categorical values
  7. Transforming variables
  8. Group-by functions with data.table
  9. Chaining commands with data.table
  10. Data.table pronouns .N, .SD, SDCols
  11. Handling missing data

EDA with Data.table

  1. Data subsetting, splitting, and merging
  2. Managing datasets
  3. Long to wide and back
  4. Merging datasets together
  5. Stacking datasets together (concatenation)
  6. Data summarization
  7. Numerical summaries
  8. Categorical summaries
  9. Multivariate summaries
  10. Creating visualizations

Big Three Strategies for dealing with Big Data in R

  1. https://rviews.rstudio.com/2019/07/17/3-big-data-strategies-for-r/
  2. 1. Sampling
  3. 2. Chunk-and-pull
  4. 3. Push compute to DB

DuckDB 

  1. Overview: DuckDB works nicely with R
  2. Basic SQL commands for working with DuckDB
  3. Understanding query performance optimizations
  4. Using dbplyr to work with DuckDB

mlr3 for Machine Learning in R

  1. Overview of mlr3
  2. Goals of machine learning
  3. mlr3 R6 object-oriented R and methods
  4. Defining a task
  5. Assigning roles to data
  6. Performing a classification
  7. Performing a regression
  8. Visualization with mlr3
  9. Pipelines
  10. Model assessment
  11. Model optimization
  12. Implementing general linear models
  13. Establishing and leveraging partitions/clusters
  14. Fitting regression models and making predictions
  15. Decision trees and random forests
  16. Naïve bayes
  17. Implementing stacked models via pipelines
  18. Implementing an AutoML model via pipelines
  19. Managing resource utilization through parallelization

Apache Spark

  1. Overview of Spark
  2. APIs to use Apache Spark with R
  3. Sparklyr versus SparkR
  4. R, Python, Java and Scala APIs to Spark
  5. Applied Examples using SparkR
  6. Spark and H2O together: sparklingwater
  7. Data import and manipulation in Spark(R)
  8. The Spark machine learning library MLlib:
  9. General linear models
  10. Random forest
  11. Naïve bayes
  12. Data Munging and Machine Learning Via H20
  13. Intro to H20
  14. Launching the cluster, checking status
  15. Data Import, manipulation in H20
  16. Fitting models in H20
  17. Generalized Linear Models
  18. Naïve bayes
  19. Random forest
  20. Gradient boosting machine (GBM)
  21. Ensemble model building
  22. AutoML
  23. Methods for explaining modeling output
TENHO INTERESSE

Cursos Relacionados

Curso Data Lake Inteligente Fundamentos para Analistas

16 horas

Curso Apache Spark and Scala

24 horas de curso pratico

Curso BigQuery Google Foudation

16 horas

Curso Bamboo Integração contínua

24 Horas

Curso Python 6 Projetos Python com Programacao Foundation to Advanced

60 horas

Curso Big Data Business Intelligence for Criminal Intelligence Analysis

40h

Curso Cloudera for Apache Kafka Overview

32 horas

Curso Cloudera Data Engineering Developing Applications with Apache Spark

32 horas