如果文本实际上是“空的”,我想知道是否可以从语料库中删除文档。我正在构建一个文本语料库,以便随后使用 R 中的 quanteda 包运行一些文本模型。文本位于 csv 文件的列中,并按如下方式导入:
> mycorpus<-corpus(readtext("tablewithdocuments.csv",text_field="textcolumn"))
> mycorpus
Corpus consisting of 25 documents and 14 docvars.
我知道如何从语料库的 dfm 中删除空文本,但我想要一个新的语料库,它是原始语料库的子集,不包括 csv 列“textcolumn”中缺少单元格的文档。
在实践中,来自以下语料库:
library("quanteda")
text <- c(
doc1 = "",
doc2 = "pinapples and pizzas taste good",
doc3 = "but please do not mix them together"
)
mycorpus <- corpus(text)
mycorpus
## Corpus consisting of 3 documents and 0 docvars.
summary(mycorpus)
## Corpus consisting of 3 documents:
## Text Types Tokens Sentences
## doc1 0 0 0
## doc2 4 4 1
## doc3 5 5 1
我想获得一个只有 doc2 和 doc3 的新语料库。
预先感谢您的帮助。
最好的祝愿,
米歇尔