r - 如何避免 R 的 LSA 包中的 textmatrix 函数出错

Question

我正在参加这个 Kaggle 比赛，我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。

基本上，textmatrix函数接受一个目录作为参数，它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。

不幸的是，textmatrix函数在遇到包含零项的文本文件时会抛出错误（例如，如果您使用停用词进行过滤，就会发生这种情况）。

有谁知道让 textmatrix忽略以零项结尾的文件的简单方法？或者是一种相对快速的方法来识别和删除这些文件？

蒂亚！

score 1 · Accepted Answer

我不知道如何让它忽略空文件。我使用的一种解决方法是将语料库中尚未出现的单词添加到每个文件中。

优点：

坏处：

（注意：可能有我没有想到的缺点。）

1 回答 1