r - 在 R 反词错误中使用 tm 进行文本挖掘

Question

我确实有自己的 .doc、.docx 和 .xlsx 文件的文本集，我正在尝试挖掘它们。它们位于我的工作目录中名为“files”的文件夹中，但我在简单地编写了几行代码后就遇到了错误。

我到目前为止的代码是：

library(tm)
library(readtext)

data = readtext('files')

此时，等待 25 秒左右后，我收到错误消息：

Error: System call to 'antiword' failed (1): The Big Block Depot is damaged

并且代码停止在那里运行。

我曾尝试在线搜索解决方案，但这似乎是一个相当罕见的错误，因此我在https://github.com/ropensci/antiword/issues/1只找到了 1 个可能的解决方案，但这对我不起作用。

此解决方案表明我的一个文件已损坏，并建议使用代码

fixInNamespace(antiword, pos="package:antiword")

将错误更改为警告以不中断文件的读取。我试过了，起初它提出了错误

Error in as.environment(pos):
    no item called "package:antiword" on the search list

之后，我用 a 加载了 antiword 库并将其library(antiword)更改stop(为 a warning(。但是，当我再次运行该data = readtext('files')线路时，它立即引发了错误

Error in is_windows() : could not find function "is_windows"

我在这里不知所措！任何帮助，将不胜感激。在这种情况下我应该使用另一个包吗？

score 0 · Accepted Answer

我的代码遇到了同样的问题，我试图在其中获取文档。R 中的文件。我还使用了 readtext 库。帮助我的是将我试图从 doc 获取的 Word 文档转换为 R。到 docx。当我在它工作后运行相同的代码时。

1 回答 1