我正在参加这个 Kaggle 比赛,我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。
基本上,textmatrix函数接受一个目录作为参数,它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。
不幸的是,textmatrix函数在遇到包含零项的文本文件时会抛出错误(例如,如果您使用停用词进行过滤,就会发生这种情况)。
有谁知道让 textmatrix忽略以零项结尾的文件的简单方法?或者是一种相对快速的方法来识别和删除这些文件?
蒂亚!
我正在参加这个 Kaggle 比赛,我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。
基本上,textmatrix函数接受一个目录作为参数,它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。
不幸的是,textmatrix函数在遇到包含零项的文本文件时会抛出错误(例如,如果您使用停用词进行过滤,就会发生这种情况)。
有谁知道让 textmatrix忽略以零项结尾的文件的简单方法?或者是一种相对快速的方法来识别和删除这些文件?
蒂亚!