0

如果文本实际上是“空的”,我想知道是否可以从语料库中删除文档。我正在构建一个文本语料库,以便随后使用 R 中的 quanteda 包运行一些文本模型。文本位于 csv 文件的列中,并按如下方式导入:

> mycorpus<-corpus(readtext("tablewithdocuments.csv",text_field="textcolumn"))
> mycorpus
Corpus consisting of 25 documents and 14 docvars.

我知道如何从语料库的 dfm 中删除空文本,但我想要一个新的语料库,它是原始语料库的子集,不包括 csv 列“textcolumn”中缺少单元格的文档。

在实践中,来自以下语料库:

library("quanteda")

text <- c(
  doc1 = "",
  doc2 = "pinapples and pizzas taste good",
  doc3 = "but please do not mix them together"
)
mycorpus <- corpus(text)

mycorpus
## Corpus consisting of 3 documents and 0 docvars.

summary(mycorpus)
## Corpus consisting of 3 documents:
## Text Types Tokens Sentences
## doc1     0      0         0
## doc2     4      4         1
## doc3     5      5         1

我想获得一个只有 doc2 和 doc3 的新语料库。

预先感谢您的帮助。

最好的祝愿,

米歇尔

4

0 回答 0