我正在尝试将 word 文件读入 R 以便对其进行文本解析。经过一段时间的研究,我发现 Apache POI 是我的最佳选择,因为它似乎是处理不同 Word 格式的最灵活的方式。
我试图遵循 R 包xlsx' or
commonJavaJars and
xlsxjars` 所做的事情。不幸的是,我无法创建几行类似的 R 行。例如:
inputStream <- .jnew("java/io/FileInputStream", path.expand(file))
wbFactory <- .jnew("org/apache/poi/ss/usermodel/WorkbookFactory")
我从中得到的是,首先创建了一个输入流(我也可以为单词 fie 做到这一点)。apache poi library
然后使用另一个 .jnew创建此工作簿工厂。寻找 word 的类似功能,我找到了 POI 包的这一部分并尝试了:
wdoc <- .jnew("org/apache/poi/hwpf/HWPFDocument")
我得到的只是一个java.lang.ClassNotFoundException
. 除了 Excel 相关包之外的 POI 包应该可用,因为 poi-3.9-20121203.jar
源代码中有xlsxjars
一个包含 .jarxlsx
依赖的包。
还尝试使用该软件包commonJavaJars
并运行该功能
加载罐子(“poi”)
没有错误,但后续调用没有成功。有人可以让我从这里开始吗?
编辑:我显然在这里错过了一个包裹。我可以立即将其他内容加载jars
到我的 R 会话中,还是必须编译一个包才能添加新的 jar?