Curso Advanced Data Analytics with PySpark

24 horas

Visão Geral

Este Curso Advanced Data Analytics with PySpark, ensina os participantes como desenvolver e executar tarefas analíticas mais sofisticadas do Spark usando PySpark (a API Python para Apache Spark). Os participantes aprendem a manipular e analisar dados usando o Spark Shell para estruturar dados com Spark SQL, Pandas e Seaborn. Ao final deste Curso Advanced Data Analytics with PySpark, os participantes estarão prontos para enfrentar com sucesso seus projetos de conjuntos de dados em grande escala.

Objetivo

Após realizar este Curso Advanced Data Analytics with PySpark você será capaz de:

Trabalhe com o ambiente PySpark Shell
Entenda os DataFrames do Spark
Processe dados com a API PySpark DataFrame
Trabalhe com tabelas dinâmicas no PySpark
Realize visualização de dados e análise exploratória de dados (EDA) no PySpark

Pre-Requisitos

Conclusão bem sucedida da aula, Introdução à Programação Python (ou conhecimento equivalente em Python)
Conhecimento de SQL

Materiais

Inglês/Português/Lab Prático

Conteúdo Programatico

Introduction to Apache Spark

What is Apache Spark
The Spark Platform
Spark vs. Hadoop's MapReduce (MR)
Common Spark Use Cases
Languages Supported by Spark
Running Spark on a Cluster
The Spark Application Architecture
The Driver Process
The Executor and Worker Processes
Spark Shell
Jupyter Notebook Shell Environment
Spark Applications
The spark-submit Tool
The spark-submit Tool Configuration
Interfaces with Data Storage Systems
Project Tungsten
The Resilient Distributed Dataset (RDD)
Datasets and DataFrames
Spark SQL, DataFrames, and Catalyst Optimizer
Spark Machine Learning Library
GraphX
Extending Spark Environment with Custom Modules and Files

The Spark Shell

The Spark Shell
The Spark v.2 + Command-Line Shells
The Spark Shell UI
Spark Shell Options
Getting Help
Jupyter Notebook Shell Environment
Example of a Jupyter Notebook Web UI (Databricks Cloud)
The Spark Context (sc) and Spark Session (spark)
Creating a Spark Session Object in Spark Applications
The Shell Spark Context Object (sc)
The Shell Spark Session Object (spark)
Loading Files
Saving Files

Introduction to Spark SQL

What is Spark SQL?
Uniform Data Access with Spark SQL
Hive Integration
Hive Interface
Integration with BI Tools
What is a DataFrame?
Creating a DataFrame in PySpark
Commonly Used DataFrame Methods and Properties in PySpark
Grouping and Aggregation in PySpark
The "DataFrame to RDD" Bridge in PySpark
The SQLContext Object
Examples of Spark SQL/DataFrame (PySpark Example)
Converting an RDD to a DataFrame Example
Example of Reading/Writing a JSON File
Using JDBC Sources
JDBC Connection Example
Performance, Scalability, and Fault-tolerance of Spark SQL

Practical Introduction to Pandas

What is pandas?
The Series Object
Accessing Values and Indexes in Series
Setting Up Your Own Index
Using the Series Index as a Lookup Key
Can I Pack a Python Dictionary into a Series?
The DataFrame Object
The DataFrame's Value Proposition
Creating a pandas DataFrame
Getting DataFrame Metrics
Accessing DataFrame Columns
Accessing DataFrame Rows
Accessing DataFrame Cells
Using iloc
Using loc
Examples of Using loc
DataFrames are Mutable via Object Reference!
Deleting Rows and Columns
Adding a New Column to a DataFrame
Appending/Concatenating DataFrame and Series Objects
Example of Appending/Concatenating DataFrames
Re-indexing Series and DataFrames
Getting Descriptive Statistics of DataFrame Columns
Getting Descriptive Statistics of DataFrames
Applying a Function
Sorting DataFrames
Reading From CSV Files
Writing to the System Clipboard
Writing to a CSV File
Fine-Tuning the Column Data Types
Changing the Type of a Column
What May Go Wrong with Type Conversion

Data Visualization with seaborn in Python

Data Visualization
Data Visualization in Python
Matplotlib
Getting Started with matplotlib
Figures
Saving Figures to a File
Seaborn
Getting Started with seaborn
Histograms and KDE
Plotting Bivariate Distributions
Scatter plots in seaborn
Pair plots in seaborn
Heatmaps

Quick Introduction to Python for Data Engineers (Optional)

What is Python?
Additional Documentation
Which version of Python am I running?
Python Dev Tools and REPLs
IPython
Jupyter
Jupyter Operation Modes
Jupyter Common Commands
Anaconda
Python Variables and Basic Syntax
Variable Scopes
PEP8
The Python Programs
Getting Help
Variable Types
Assigning Multiple Values to Multiple Variables
Null (None)
Strings
Finding the Index of a Substring
String Splitting
Triple-Delimited String Literals
Raw String Literals
String Formatting and Interpolation
Boolean
Boolean Operators
Numbers
Looking Up the Runtime Type of a Variable
Divisions
Assignment-with-Operation
Relational Operators
The if-elif-else Triad
An if-elif-else Example
Conditional Expressions (a.k.a. Ternary Operator)
The While-Break-Continue Triad
The for Loop
try-except-finally
Lists
Main List Methods
Dictionaries
Working with Dictionaries
Sets
Common Set Operations
Set Operations Examples
Finding Unique Elements in a List
Enumerate
Tuples
Unpacking Tuples
Functions
Dealing with Arbitrary Number of Parameters
Keyword Function Parameters
The range Object
Random Numbers
Python Modules
Importing Modules
Installing Modules
Listing Methods in a Module
Creating Your Own Modules
Creating a Runnable Application
List Comprehension
Zipping Lists
Working with Files
Reading and Writing Files
Reading Command-Line Parameters
Accessing Environment Variables
What is Functional Programming (FP)?
Higher-Order Functions
Lambda Functions in Python
Lambdas in the Sorted Function
Other Examples of Using Lambdas
Regular Expressions
Using Regular Expressions Examples
Python Data Science-Centric Libraries

TENHO INTERESSE

Cursos Relacionados

Curso Fundamentos de Gerenciamento de Dados Mestres

16 horas

Ver Curso

Curso Big Data Analyst Mineração de Dados

32 horas

Ver Curso

Curso Técnicas de integração de dados ETL

16 horas

Ver Curso

Curso Big Data Boot Camp Visão de Negócios

Ver Curso

Curso Inteligência Artificial / AI Visão Geral

8 horas

Ver Curso

Curso Hadoop Fundamentos

16 horas

Ver Curso

Curso Oracle Fundamentos de Big Data

32 horas

Ver Curso

Curso Fundamentos de Qualidade de Dados

16 horas

Ver Curso

Curso Marchine Learning Com Hadoop

32 horas

Ver Curso

Curso Python for Data Analysis

24 horas

Ver Curso

Curso Advanced Data Analytics with PySpark

Curso Advanced Data Analytics with PySpark

Visão Geral

Objetivo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Fundamentos de Gerenciamento de Dados Mestres

Curso Big Data Analyst Mineração de Dados

Curso Técnicas de integração de dados ETL

Curso Big Data Boot Camp Visão de Negócios

Curso Inteligência Artificial / AI Visão Geral

Curso Hadoop Fundamentos

Curso Oracle Fundamentos de Big Data

Curso Fundamentos de Qualidade de Dados

Curso Marchine Learning Com Hadoop

Curso Python for Data Analysis

O que você quer aprender hoje?

Curso Advanced Data Analytics with PySpark

Curso Advanced Data Analytics with PySpark

Visão Geral

Objetivo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Fundamentos de Gerenciamento de Dados Mestres

Curso Big Data Analyst Mineração de Dados

Curso Técnicas de integração de dados ETL

Curso Big Data Boot Camp Visão de Negócios

Curso Inteligência Artificial / AI Visão Geral

Curso Hadoop Fundamentos

Curso Oracle Fundamentos de Big Data

Curso Fundamentos de Qualidade de Dados

Curso Marchine Learning Com Hadoop

Curso Python for Data Analysis