r - 使用 R 中的 docvars 从语料库中删除文档（quanteda 包）

翻译自：https://stackoverflow.com/questions/57434152 2019-08-09T16:40:02.680

325 次

如果文本实际上是“空的”，我想知道是否可以从语料库中删除文档。我正在构建一个文本语料库，以便随后使用 R 中的 quanteda 包运行一些文本模型。文本位于 csv 文件的列中，并按如下方式导入：

> mycorpus<-corpus(readtext("tablewithdocuments.csv",text_field="textcolumn"))
> mycorpus
Corpus consisting of 25 documents and 14 docvars.

我知道如何从语料库的 dfm 中删除空文本，但我想要一个新的语料库，它是原始语料库的子集，不包括 csv 列“textcolumn”中缺少单元格的文档。

在实践中，来自以下语料库：

library("quanteda")

text <- c(
  doc1 = "",
  doc2 = "pinapples and pizzas taste good",
  doc3 = "but please do not mix them together"
)
mycorpus <- corpus(text)

mycorpus
## Corpus consisting of 3 documents and 0 docvars.

summary(mycorpus)
## Corpus consisting of 3 documents:
## Text Types Tokens Sentences
## doc1     0      0         0
## doc2     4      4         1
## doc3     5      5         1

我想获得一个只有 doc2 和 doc3 的新语料库。

预先感谢您的帮助。

最好的祝愿，

米歇尔

r - 使用 R 中的 docvars 从语料库中删除文档（quanteda 包）

0 回答 0

Related

Reference