Visão Geral
O Curso Text Analytics and Natural Language Processing NLP with R, cobre métodos para ingerir dados de texto de uma variedade de fontes, como arquivos de texto simples, PDFs ou a web, e depois processar esses dados usando o processamento de linguagem natural mais recente e profundo técnicas de aprendizagem.
Objetivo
Ao participar do Curso Text Analytics and Natural Language Processing NLP with R, os participantes aprenderão a:
- Importe dados de texto de vários formatos de origem
- Tokenizar dados de texto em unidades significativas
- Discutir dados de texto usando funções textuais específicas
- Calcular medidas de agregação em dados tokenizados
- Traduzir entre formatos de dados de texto
- Conclua uma análise de sentimento
- Realizar classificação de documentos
- Execute a modelagem de tópicos
- Construiu uma rede neural simples apropriada para modelagem de PNL
Pre-Requisitos
- Conhecimento prático da linguagem R, RStudio e dos pacotes dplyr/tidyverse.
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico
Working with unstructured text data
- string methods
- regex
- reading in text files
- review of base (R/Python)
Importing
- parsing data from a text file
- importing it into a tidy structure
- parsing data from a pdf
- From a "pile of pdfs"
- scraping data from the web
- Discussion of other methods
- OCR
- Handwriting recognition
Managing Text Data 1
- a tidy text format
- Overview of text data formats
- tidy text
- token list
- Bag of words
- document term matrix or document frequency matrix (dfm/dt)
- corpus
- docvars
- associated formats
- stop words
- Sentiment lexica
- word vectors / models
Managing Text Data 2
- tokenizing text
- units of tokenization
- tokens
- lemma
- stems
- n-grams
- sentences
- Tweets
- Tf-idf
- Log-odds (tidylo)
Sentiment Analysis
- Sentiment lexica
- Sentiment analysis with inner_join
- Analyzing by other units
- Valence shifting
- VADER
Document Classification
- Text similarity - stringiest
- Cosine
- Edit distance
- Machine Learning for document classification
- Naive Bayes model
Modeling / Document Clustering
- LDA
- stm
Text and Deep Learning
- Deep learning introduction
- Architecture of neural networks
- Tensorflow + keras
- Word vectors
- word2vec
- Text2vec
- GloVe
- Spacy
- Combining Deep Learning and NLP
- CNN
- RNN
- LSTM
- Named Entity Recognition (NER)
- Part of Speech tagging (POS)
- Dependency Parsing
TENHO INTERESSE