Curso Python for Data Science Advanced
24 horasVisão Geral
Curso Python for Data Science Advanced. Aprenda habilidades avançadas em Python para análise de dados, visualizações e processamento de big data.
Este curso explora o uso de Python para cientistas de dados realizarem análises exploratórias de dados, visualizações complexas e processamento distribuído em grande escala usando Big Data. Neste Curso Python for Data Science Advanced, você aprenderá sobre bibliotecas matemáticas e estatísticas essenciais, como NumPy, Pandas, SciPy, SciKit-Learn, junto com estruturas como TensorFlow e Spark. Também cobre ferramentas de visualização como matplotlib, PIL e Seaborn.
Objetivo
Após realizare este Curso Python for Data Science Advanced, você será capaz de:
- Como trabalhar com Python em um contexto de ciência de dados
- Como usar NumPy, Pandas e MatPlotLib
- Como criar e processar imagens com PIL
- Como visualizar com Seaborn
- Principais recursos do SciPy e SciKit Learn
- Como interagir com Spark usando DataFrames
- Como usar streaming SparkSQL, MLlib e Big Data
Publico Alvo
Cientistas de dados, engenheiros de dados e engenheiros de software com experiência em Python básico e ciência de dados.
Pre-Requisitos
- Python para ciência de dados Primer
- JumpStart para Python para ciência de dados
- Python aplicado para ciência e engenharia de dados
Materiais
Inglês/Português/Lab PráticoConteúdo Programatico
Python Review
- Python Language
- Essential Syntax
- Lists, Sets, Dictionaries, and Comprehensions
- Functions
- Classes, Modules, and imports
- Exceptions
iPython
- iPython basics
- Terminal and GUI shells
- Creating and using notebooks
- Saving and loading notebooks
- Ad hoc data visualization
- Web Notebooks (Jupyter)
NumPy
- NumPy basics
- Creating arrays
- Indexing and slicing
- Large number sets
- Transforming data
- Advanced tricks
SciPy
- What can SciPy do?
- Most useful functions
- Curve fitting
- Modeling
- Data visualization
- Statistics
SciPy subpackages
- Clustering
- Physical and mathematical Constants
- FFTs
- Integral and differential solvers
- Interpolation and smoothing
- Input and Output
- Linear Algebra
- Image Processing
- Distance Regression
- Root-finding
- Signal Processing
- Sparse Matrices
- Spatial data and algorithms
- Statistical distributions and functions
- C/C++ Integration
pandas
- pandas overview
- Dataframes
- Reading and writing data
- Data alignment and reshaping
- Fancy indexing and slicing
- Merging and joining data sets
matplotlib
- Creating a basic plot
- Commonly used plots
- Ad hoc data visualization
- Advanced usage
- Exporting images
The Python Imaging Library (PIL)
- PIL overview
- Core image library
- Image processing
- Displaying images
seaborn
- Seaborn overview
- Bivariate and univariate plots
- Visualizing Linear Regressions
- Visualizing Data Matrices
- Working with Time Series data
SciKit-Learn Machine Learning Essentials
- SciKit overview
- SciKit-Learn overview
- Algorithms Overview
- Classification, Regression, Clustering, and Dimensionality Reduction
- SciKit Demo
TensorFlow Overview
- TensorFlow overview
- Keras
- Getting Started with TensorFlow
PySpark Overview
- Python and Spark
- SciKit-Learn vs. Spark MLlib
- Python at Scale
- PySpark Demo
RDDs and DataFrames
- DataFrames and Resilient Distributed Datasets (RDDs)
- Partitions
- Adding variables to a DataFrame
- DataFrame Types
- DataFrame Operations
- Dependent vs. Independent variables
- Map/Reduce with DataFrames
Spark SQL
- Spark SQL Overview
- Data stores: HDFS, Cassandra, HBase, Hive, and S3
- Table Definitions
- Queries
Spark MLib
- MLib overview
- MLib Algorithms Overview
- Classification Algorithms
- Regression Algorithms
- Decision Trees and forests
- Recommendation with ALS
- Clustering Algorithms
- Machine Learning Pipelines
- Linear Algebra (SVD, PCA)
- Statistics in MLib
Spark Streaming
- Streaming overview
- Integrating Spark SQL, MLlib, and Streaming