html - 使用 Crawler4j 抓取 PDF

Question

我目前使用 crawler4j 来抓取网站并返回页面 url 和该页面的父页面 url。我正在使用运行良好的基本爬虫，但它没有返回 PDF。我知道它会抓取 PDF，因为我在添加过滤器和显示 pdf 之前检查了它抓取的内容。PDF在进入时似乎消失/跳过

公共无效访问（页面页面）{

我不知道它为什么这样做。谁能帮我这个？这将不胜感激！谢谢

score 3 · Accepted Answer

这是非常及时的，我今天实际上正在处理同样的问题并且遇到了完全相同的问题。对于 PDF url，我在 shouldVisit 中返回 true，但是我没有看到它们像您一样出现在访问（页面页面）中。我追踪了 CrawlConfig 的来源：

config.setIncludeBinaryContentInCrawling(true)

将其设置为 true 将导致 PDF 显示在访问方法中。尽管看起来读取二进制数据必须在实施者一方使用 Apache PDFBox 或 Apache Tika（或其他一些 PDF 库）来完成。希望这可以帮助。

1 回答 1