这很可能是一个愚蠢的问题,但我已经用谷歌搜索和搜索,但找不到解决方案。我认为这是因为我不知道正确的方式来表达我要搜索的问题。
我有一个数据框,已在 R 中转换为整洁的文本格式,以消除停用词。我现在想将该数据框“整理”回其原始格式。
unnest_tokens 的相反/反向命令是什么?
编辑:这是我正在使用的数据的样子。我正在尝试复制 Silge 和 Robinson 的Tidy Text book 中的分析,但使用的是意大利歌剧歌词。
character = c("FIGARO", "SUSANNA", "CONTE", "CHERUBINO")
line = c("Cinque... dieci.... venti... trenta... trentasei...quarantatre", "Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.", "Susanna, mi sembri agitata e confusa.", "Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!")
sample_df = data.frame(character, line)
sample_df
character line
FIGARO Cinque... dieci.... venti... trenta... trentasei...quarantatre
SUSANNA Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.
CONTE Susanna, mi sembri agitata e confusa.
CHERUBINO Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!
我把它变成整洁的文本,这样我就可以去掉停用词:
tribble <- sample_df %>%
unnest_tokens(word, line)
# Get rid of stop words
# I had to make my own list of stop words for 18th century Italian opera
itstopwords <- data_frame(text=mystopwords)
names(itstopwords)[names(itstopwords)=="text"] <- "word"
tribble2 <- tribble %>%
anti_join(itstopwords)
现在我有这样的事情:
text word
FIGARO cinque
FIGARO dieci
FIGARO venti
FIGARO trenta
...
我想将其恢复为字符名称和相关行的格式以查看其他内容。基本上我希望文本格式与以前相同,但删除了停用词。