Text Mining: Exploratory Data Analysis to Machine Learning

T E X T M I N I N G
EXPLORATORY DATA ANALYSIS TO MACHINE LEARNING

HELLO T I D Y T E X T Data
Scientist at Stack Overflow @juliasilge https://juliasilge.com/ I’m Julia Silge

T I D Y T E X T TEXT DATA
IS INCREASINGLY IMPORTANT 

T I D Y T E X T TEXT DATA
IS INCREASINGLY IMPORTANT  NLP TRAINING IS SCARCE ON THE GROUND 

TIDY DATA PRINCIPLES + COUNT-BASED METHODS = T I D
Y T E X T

https://github.com/juliasilge/tidytext

http://tidytextmining.com/

T I D Y T E X T EXPLORATORY DATA
ANALYSIS  N-GRAMS AND MORE WORDS MACHINE LEARNING  

EXPLORATORY DATA ANALYSIS T I D Y T E X
T

from the Washington Post’s Wonkblog

D3 visualization on Glitch

WHAT IS A DOCUMENT ABOUT? T I D Y T
E X T TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

• As part of the NASA Datanauts program, I worked
on a project to understand NASA datasets • Metadata includes title, description, keywords, etc

T A K I N G T I D Y
T E X T T O T H E N E X T L E V E L N-GRAMS, NETWORKS, & NEGATION

T A K I N G T I D Y
T E X T T O T H E N E X T L E V E L TOPIC MODELING

TOPIC MODELING T I D Y T E X T
•Each DOCUMENT = mixture of topics •Each TOPIC = mixture of words

T A K I N G T I D Y
T E X T T O T H E N E X T L E V E L TEXT CLASSIFICATION

TRAIN A GLMNET MODEL T I D Y T E
X T

TEXT CLASSIFICATION T I D Y T E X T
> library(glmnet) > library(doMC) > registerDoMC(cores = 8) > > is_jane <- books_joined$title == "Pride and Prejudice" > > model <- cv.glmnet(sparse_words, is_jane, family = "binomial", + parallel = TRUE, keep = TRUE)

THANK YOU T I D Y T E X T
@juliasilge https://juliasilge.com JULIA SILGE

THANK YOU T I D Y T E X T
@juliasilge https://juliasilge.com Author portraits from Wikimedia Photos by Glen Noble and Kimberly Farmer on Unsplash JULIA SILGE

Text Mining: Exploratory Data Analysis to Machi...

Text Mining: Exploratory Data Analysis to Machine Learning

Julia Silge

More Decks by Julia Silge

Other Decks in Technology

Featured

Transcript

T E X T M I N I N G

HELLO T I D Y T E X T Data

T I D Y T E X T TEXT DATA

T I D Y T E X T TEXT DATA

TIDY DATA PRINCIPLES + COUNT-BASED METHODS = T I D

https://github.com/juliasilge/tidytext

https://github.com/juliasilge/tidytext

http://tidytextmining.com/

T I D Y T E X T EXPLORATORY DATA

EXPLORATORY DATA ANALYSIS T I D Y T E X

from the Washington Post’s Wonkblog

from the Washington Post’s Wonkblog

D3 visualization on Glitch

WHAT IS A DOCUMENT ABOUT? T I D Y T

• As part of the NASA Datanauts program, I worked

T A K I N G T I D Y

T A K I N G T I D Y

TOPIC MODELING T I D Y T E X T

T A K I N G T I D Y

TRAIN A GLMNET MODEL T I D Y T E

TEXT CLASSIFICATION T I D Y T E X T



THANK YOU T I D Y T E X T

THANK YOU T I D Y T E X T