0

如何使用 Web Harvesting 从 PDF 中提取数据?我在页面中获取了所有相关的 PDF url,但我无法从这些 Pdf 中提取数据。我正在使用 Web Harvest 2.0 版来提取 Pdfs url。请帮忙。

我将如何将 pdfcommand 合并到网络收获中以获取文本?在不运行任何批处理文件的情况下还有其他方法吗?

4

1 回答 1

0

我认为网络收获是不够的。您应该使用 WGET 和 pdfbox 来获得结果。首先在 WGET 或 Web 收获本身的帮助下,通过您的 URL 将所有 PDF 下载到一个文件夹中。然后运行 ​​pdfbox 命令从 PDF 中获取文本。您可以从 URL http://pdfbox.apache.org/commandline/获得一些关于 pdfbox 的知识。您还可以创建一个批处理文件来按顺序运行这些东西。

于 2014-04-16T05:21:15.823 回答