所以我对 R 比较陌生,我正在学习如何从这个方便的网站挖掘文本:https ://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining -使用-r/
我确实有自己的 .doc、.docx 和 .xlsx 文件的文本集,我正在尝试挖掘它们。它们位于我的工作目录中名为“files”的文件夹中,但我在简单地编写了几行代码后就遇到了错误。
我到目前为止的代码是:
library(tm)
library(readtext)
data = readtext('files')
此时,等待 25 秒左右后,我收到错误消息:
Error: System call to 'antiword' failed (1): The Big Block Depot is damaged
并且代码停止在那里运行。
我曾尝试在线搜索解决方案,但这似乎是一个相当罕见的错误,因此我在https://github.com/ropensci/antiword/issues/1只找到了 1 个可能的解决方案,但这对我不起作用。
此解决方案表明我的一个文件已损坏,并建议使用代码
fixInNamespace(antiword, pos="package:antiword")
将错误更改为警告以不中断文件的读取。我试过了,起初它提出了错误
Error in as.environment(pos):
no item called "package:antiword" on the search list
之后,我用 a 加载了 antiword 库并将其library(antiword)
更改stop(
为 a warning(
。但是,当我再次运行该data = readtext('files')
线路时,它立即引发了错误
Error in is_windows() : could not find function "is_windows"
我在这里不知所措!任何帮助,将不胜感激。在这种情况下我应该使用另一个包吗?