我有大量 .doc 文件,它们提供了一组相应数据集中可用的变量。我想在 R 中浏览这些,看看哪些数据集包含感兴趣的变量。我之前使用 readLines 对纯文本文件执行过此操作,但这不适用于 .doc 文件。
我已经下载了 tm 包,它应该能够使用 readDOC 命令读取 .doc 文件,但是说明非常有限,我无法让它工作。有谁知道如何使用 readDOC 命令或对如何在 R 中执行此操作有其他建议?谢谢!
非常感谢大家的回复和建议。我认为 R 可以很容易地设置为读取 .doc 文件,但从你所说的我认为最简单的事情是首先将所有 word 文件转换为另一种格式。我刚刚下载了一些名为“Convert Doc”的免费软件,我将所有的 word 文档存储在一个文件夹中,并且很快将它们全部转换为 .txt 文件。现在我可以自动搜索,因为我有大约 100 个数据文件,附带指定变量编码的 word 文档,每个数据文件中并不总是相同(例如,是/否,一些使用 0/1,其他使用 1/2)所以这允许我找到正确的变量并使用 readLines、grep 和更多的文本处理来存储它的编码。谢谢!