Visão Geral
Curso Jumpstart to Python For Data Science. Aprenda a resolver problemas básicos de ciência de dados usando Python.
A ciência de dados é um novo domínio de conhecimento em rápido crescimento, usado pelas organizações para tomar decisões baseadas em dados. Os cientistas de dados desempenham várias funções para trabalhar com dados e obter valor deles. A linguagem de programação Python é uma ferramenta indispensável para o profissional de ciência de dados e uma ferramenta obrigatória para todo aspirante a cientista de dados. Python oferece um ambiente rápido, confiável, multiplataforma e maduro para análise de dados, aprendizado de máquina e resolução de problemas algorítmicos.
Começando com os fundamentos do Python na ciência de dados, você aprenderá a gerenciar dados e realizar álgebra linear em Python. Você aplicará técnicas de regressão logística aos seus aplicativos antes de criar mecanismos de recomendação com vários algoritmos de filtragem colaborativa e melhorar suas previsões aplicando os métodos de conjunto. Por fim, você realizará clustering K-means, juntamente com uma análise de dados não estruturados com diferentes técnicas de mineração de texto e aproveitando o poder do Python na análise de big data.
Objetivo
Após realizare este Curso Jumpstart to Python For Data Science você será capaz de:
- Gerencie dados e execute álgebra linear em Python
- Derive inferências da análise realizando estatísticas inferenciais
- Resolva problemas de ciência de dados em Python
- Crie visualizações de alta qualidade usando Python
- Avaliar e aplicar a técnica de regressão linear para estimar as relações entre variáveis
- Crie mecanismos de recomendação com vários algoritmos de filtragem colaborativa
- Aplique os métodos de conjunto para melhorar suas previsões
- Trabalhe com tecnologias de big data para lidar com dados em escala
Pre-Requisitos
- Scripts Python escritos
- Sinta-se confortável trabalhando com arquivos, pastas e linha de comando
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico
Getting Started with Raw Data
- The world of arrays with NumPy
- Empowering data analysis with pandas
- Data cleansing
- Data operations
Inferential Statistics
- Various forms of distribution
- A z-score
- A p-value
- One-tailed and two-tailed tests
- Type 1 and Type 2 errors
- A confidence interval
- Correlation
- Z-test vs T-test
- The F distribution
- The chi-square distribution
- The chi-square test of independence
- ANOVA
Finding a Needle in a Haystack
- What is data mining?
- Presenting an analysis
Making Sense of Data through Advanced Visualization
- Controlling the line properties of a chart
- Creating multiple plots
- Playing with text
- Styling your plots
- Box plots
- Heatmaps
- Scatter plots with histograms
- A scatter plot matrix
- Area plots
- Bubble charts
- Hexagon bin plots
- Trellis plots
- A 3D plot of a surface
Uncovering Machine Learning
- Different types of machine learning
- Decision trees
- Linear regression
- Logistic regression
- The naive Bayes classifier
- The k-means clustering
- Hierarchical clustering
Performing Predictions with a Linear Regression
- Simple linear regression
- Multiple regression
- Training and testing a model
Estimating the Likelihood of Events
- Logistic regression
Generating Recommendations with Collaborative Filtering
- Recommendation data
- User-based collaborative filtering
- Item-based collaborative filtering
Pushing Boundaries with Ensemble Models
- The census income dataset
- Decision trees
- Random forests
- Applying Segmentation with k-means Clustering
- The k-means algorithm and its working
- The k-means clustering with countries
- Clustering the countries
Analyzing Unstructured Data with Text Mining
- Preprocessing data
- Creating a wordcloud
- Word and sentence tokenization
- Parts of speech tagging
- Stemming and lemmatization
- The Stanford Named Entity Recognizer
- Performing sentiment analysis on world leaders using Twitter
Leveraging Python in the World of Big Data
- What is Hadoop?
- Python MapReduce
- File handling with Hadoopy
- Pig
- Python with Apache Spark
TENHO INTERESSE