我正在使用 R 包udpipe
在我的数据框中提取关键字。让我们从包中包含的一些数据开始:
library(udpipe)
data(brussels_reviews)
如果我们查看结构,我们会看到它包含 1500 条评论(行)和 4 列。
str(brussels_reviews)
'data.frame': 1500 obs. of 4 variables:
$ id : int 32198807 12919832 23786310 20048068 17571798 28394425 46322841 27719650 14512388 37675819 ...
$ listing_id: int 1291276 1274584 1991750 2576349 1866754 5247223 7925019 4442255 2863621 3117760 ...
$ feedback : chr "Gwen fue una magnifica anfitriona. El motivo de mi viaje a Bruselas era la busqueda de un apartamento y Gwen me"| __truncated__ "Aurelie fue muy atenta y comunicativa. Nos dio mapas, concejos turisticos y de transporte para disfrutar Brusel"| __truncated__ "La estancia fue muy agradable. Gabriel es muy atento y esta dispuesto a ayudar en todo lo que necesites. La cas"| __truncated__ "Excelente espacio, excelente anfitriona, un lugar accessible economicamente y cerca de los lugares turisticos s"| __truncated__ ...
$ language : chr "es" "es" "es" "es" ...
在学习本教程时,我可以一起提取所有数据框的关键字。出色的。
但是,我的要求是在每一行中提取关键字,而不是整个数据框。
我承认,对于这个示例,它没有多大意义,因为只有一列带有文本 ( feedback
)。但是,在我的真实示例中,我有很多带有文本的列。
所以,我想在数据框的每一行中提取关键字。所以如果我们在这个例子中提取关键字,我想得到 1500 组关键字,每组对应每一行。
我该怎么做?
更新和示例
按照这两个步骤,我们得到了所有数据框的关键字。但是,我想在数据框的每一行中获取关键字。
第一步
library(udpipe)
library(textrank)
## First step: Take the Spanish udpipe model and annotate the text. Note: this takes about 3 minutes
data(brussels_reviews)
comments <- subset(brussels_reviews, language %in% "es")
ud_model <- udpipe_download_model(language = "spanish")
ud_model <- udpipe_load_model(ud_model$file_model)
x <- udpipe_annotate(ud_model, x = comments$feedback)
x <- as.data.frame(x)
第二步
## Collocation (words following one another)
stats <- keywords_collocation(x = x,
term = "token", group = c("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)
## Co-occurrences: How frequent do words occur in the same sentence, in this case only nouns or adjectives
stats <- cooccurrence(x = subset(x, upos %in% c("NOUN", "ADJ")),
term = "lemma", group = c("doc_id", "paragraph_id", "sentence_id"))
## Co-occurrences: How frequent do words follow one another
stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"))
## Co-occurrences: How frequent do words follow one another even if we would skip 2 words in between
stats <- cooccurrence(x = x$lemma,
relevant = x$upos %in% c("NOUN", "ADJ"), skipgram = 2)