1

我正在参加这个 Kaggle 比赛,我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。

基本上,textmatrix函数接受一个目录作为参数,它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。

不幸的是,textmatrix函数在遇到包含零项的文本文件时会抛出错误(例如,如果您使用停用词进行过滤,就会发生这种情况)。

有谁知道让 textmatrix忽略以零项结尾的文件的简单方法?或者是一种相对快速的方法来识别和删除这些文件?

蒂亚!

4

1 回答 1

1

我不知道如何让它忽略空文件。我使用的一种解决方法是将语料库中尚未出现的单词添加到每个文件中。

优点:

  • 每个文件都至少有一个单词,这样textmatrix就不会失败
  • 每个文件中的同一个词不会影响单个文档的相关性
  • 你知道根据textmatrix的单词数比原始文档中的单词数多一

坏处:

  • 每个文件都变得与其他文件有点相似,因为它们都共享一个单词。

(注意:可能有我没有想到的缺点。)

于 2013-03-27T15:03:04.930 回答