webharvest - 使用 Web 收集从 Pdf 中提取数据

Question

如何使用 Web Harvesting 从 PDF 中提取数据？我在页面中获取了所有相关的 PDF url，但我无法从这些 Pdf 中提取数据。我正在使用 Web Harvest 2.0 版来提取 Pdfs url。请帮忙。

我将如何将 pdfcommand 合并到网络收获中以获取文本？在不运行任何批处理文件的情况下还有其他方法吗？

score 0 · Accepted Answer

我认为网络收获是不够的。您应该使用 WGET 和 pdfbox 来获得结果。首先在 WGET 或 Web 收获本身的帮助下，通过您的 URL 将所有 PDF 下载到一个文件夹中。然后运行 pdfbox 命令从 PDF 中获取文本。您可以从 URL http://pdfbox.apache.org/commandline/获得一些关于 pdfbox 的知识。您还可以创建一个批处理文件来按顺序运行这些东西。

webharvest - 使用 Web 收集从 Pdf 中提取数据

1 回答 1

Related

Reference