3

我也必须从给定的 URL 抓取 PDF 文档...建议任何工具/API 也可以抓取 PDF 文档...现在我正在使用 nutch 进行抓取,但我无法从给定的 URL 抓取 PDF...我应该使用任何用nutch抓取PDF的插件?

seed.txt --> http://nutch.apache.org regex-urlfilter.txt--->+^http://([a-z0-9]*.)*nutch.apache.org/

提前致谢

4

3 回答 3

2
  1. 编辑regex-urlfilter.txt并删除任何出现的“pdf”
  2. 编辑suffix-urlfilter.txt并删除任何出现的“pdf”
  3. 编辑nutch-site.xml,在 plugin.includes 部分添加“parse-tika”和“parse-html”。这应该看起来像这样

这个答案来自这里。我在使用 Nutch 时测试过它

<property>


<name>plugin.includes</name>
  <value>protocol-http|urlfilter-regex|parse-(html|tika|text)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
  <description>
    ...
  </description>
</property>
于 2014-12-29T20:01:23.170 回答
1

我发现即使你使用了 tika 插件,它仍然无法将 pdf 或任何 ms office 文件爬入 crawldb。您需要在 nutch-site.xml白名单中添加要抓取的 url ,以获取 pdf 和任何 ms office 文件:

<property>
  <name>http.robot.rules.whitelist</name>
  <value>xxx.xxx.xxx.xxx</value>
  <description>Comma separated list of hostnames or IP addresses to ignore 
  robot rules parsing for. Use with care and only if you are explicitly
  allowed by the site owner to ignore the site's robots.txt!
  </description>
</property>
于 2016-01-28T04:51:34.980 回答
0

使用 Nutch 的parse-tika插件。纯文本、XML、OpenDocument (OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、RTF、MP3(ID3 标签)均由 Tika 插件解析

于 2013-08-21T06:49:46.933 回答