1

所以我对 R 比较陌生,我正在学习如何从这个方便的网站挖掘文本:https ://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining -使用-r/

我确实有自己的 .doc、.docx 和 .xlsx 文件的文本集,我正在尝试挖掘它们。它们位于我的工作目录中名为“files”的文件夹中,但我在简单地编写了几行代码后就遇到了错误。

我到目前为止的代码是:

library(tm)
library(readtext)

data = readtext('files')

此时,等待 25 秒左右后,我收到错误消息:

Error: System call to 'antiword' failed (1): The Big Block Depot is damaged

并且代码停止在那里运行。

我曾尝试在线搜索解决方案,但这似乎是一个相当罕见的错误,因此我在https://github.com/ropensci/antiword/issues/1只找到了 1 个可能的解决方案,但这对我不起作用。

此解决方案表明我的一个文件已损坏,并建议使用代码

fixInNamespace(antiword, pos="package:antiword")

将错误更改为警告以不中断文件的读取。我试过了,起初它提出了错误

Error in as.environment(pos):
    no item called "package:antiword" on the search list

之后,我用 a 加载了 antiword 库并将其library(antiword)更改stop(为 a warning(。但是,当我再次运行该data = readtext('files')线路时,它立即引发了错误

Error in is_windows() : could not find function "is_windows"

我在这里不知所措!任何帮助,将不胜感激。在这种情况下我应该使用另一个包吗?

4

1 回答 1

0

我的代码遇到了同样的问题,我试图在其中获取文档。R 中的文件。我还使用了 readtext 库。帮助我的是将我试图从 doc 获取的 Word 文档转换为 R。到 docx。当我在它工作后运行相同的代码时。

于 2021-05-13T11:36:36.907 回答