4

我目前使用 crawler4j 来抓取网站并返回页面 url 和该页面的父页面 url。我正在使用运行良好的基本爬虫,但它没有返回 PDF。我知道它会抓取 PDF,因为我在添加过滤器和显示 pdf 之前检查了它抓取的内容。PDF在进入时似乎消失/跳过

公共无效访问(页面页面){

我不知道它为什么这样做。谁能帮我这个?这将不胜感激!谢谢

4

1 回答 1

3

这是非常及时的,我今天实际上正在处理同样的问题并且遇到了完全相同的问题。对于 PDF url,我在 shouldVisit 中返回 true,但是我没有看到它们像您一样出现在访问(页面页面)中。我追踪了 CrawlConfig 的来源:

config.setIncludeBinaryContentInCrawling(true)

将其设置为 true 将导致 PDF 显示在访问方法中。尽管看起来读取二进制数据必须在实施者一方使用 Apache PDFBox 或 Apache Tika(或其他一些 PDF 库)来完成。希望这可以帮助。

于 2014-08-13T19:55:38.510 回答