Visão Geral
Este Curso Analisando Big Data com R Programming, ensina aos participantes como usar a análise distribuída na memória/em disco usando H20, Hadoop e Apache Spark, e como integrar o Microsoft Machine Learning Server e o R.
Objetivo
Após realizar este Curso Analisando Big Data com R Programming, você será capaz de:
- Entenda como R funciona com grandes conjuntos de dados
- Gerenciar big data na memória com data.table
- Realizar análise exploratória de dados com data.table
- Aprenda estratégias de gerenciamento de big data, como amostragem, chunk-and-pull e push de computação para o banco de dados
- Execute consultas SQL diretamente em dataframes R usando DuckDB
- Use o DuckDB como um back-end de falta de memória para quadros de dados R
- Realize operações de aprendizado de máquina usando mlr3
- Interface com Apache Spark usando Sparklyr ou SparkR
- Use H2O para coleta de dados e aprendizado de máquina
Pre-Requisitos
Além da experiência profissional, os alunos que frequentem este curso deverão ter:
- Experiência de programação usando R e familiaridade com pacotes R comuns
- Conhecimento de métodos estatísticos comuns e melhores práticas de análise de dados
- Conhecimento básico do sistema operacional Microsoft Windows e sua funcionalidade principal
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico
Introduction:
- Does R work with big datasets?
- What challenges does big data introduce when using R?
- ETL and descriptive data tasks
- Modeling tasks, optimization challenges
In-memory Big Data: Data.table
- Why do we need data.table?
- The i and the j arguments in data.table
- Renaming columns
- Adding new columns
- Binning data (continuous to categorical)
- Combining categorical values
- Transforming variables
- Group-by functions with data.table
- Chaining commands with data.table
- Data.table pronouns .N, .SD, SDCols
- Handling missing data
EDA with Data.table
- Data subsetting, splitting, and merging
- Managing datasets
- Long to wide and back
- Merging datasets together
- Stacking datasets together (concatenation)
- Data summarization
- Numerical summaries
- Categorical summaries
- Multivariate summaries
- Creating visualizations
Big Three Strategies for dealing with Big Data in R
- https://rviews.rstudio.com/2019/07/17/3-big-data-strategies-for-r/
- 1. Sampling
- 2. Chunk-and-pull
- 3. Push compute to DB
DuckDB
- Overview: DuckDB works nicely with R
- Basic SQL commands for working with DuckDB
- Understanding query performance optimizations
- Using dbplyr to work with DuckDB
mlr3 for Machine Learning in R
- Overview of mlr3
- Goals of machine learning
- mlr3 R6 object-oriented R and methods
- Defining a task
- Assigning roles to data
- Performing a classification
- Performing a regression
- Visualization with mlr3
- Pipelines
- Model assessment
- Model optimization
- Implementing general linear models
- Establishing and leveraging partitions/clusters
- Fitting regression models and making predictions
- Decision trees and random forests
- Naïve bayes
- Implementing stacked models via pipelines
- Implementing an AutoML model via pipelines
- Managing resource utilization through parallelization
Apache Spark
- Overview of Spark
- APIs to use Apache Spark with R
- Sparklyr versus SparkR
- R, Python, Java and Scala APIs to Spark
- Applied Examples using SparkR
- Spark and H2O together: sparklingwater
- Data import and manipulation in Spark(R)
- The Spark machine learning library MLlib:
- General linear models
- Random forest
- Naïve bayes
- Data Munging and Machine Learning Via H20
- Intro to H20
- Launching the cluster, checking status
- Data Import, manipulation in H20
- Fitting models in H20
- Generalized Linear Models
- Naïve bayes
- Random forest
- Gradient boosting machine (GBM)
- Ensemble model building
- AutoML
- Methods for explaining modeling output
TENHO INTERESSE