我有一个要抓取的网站,其中包含一些指向 pdf 文件的链接。我希望 nutch 抓取该链接并将它们转储为 .pdf 文件。我正在使用 Apache Nutch1.6,我也在 java 中将其作为
ToolRunner.run(NutchConfiguration.create(), new Crawl(),
tokenize(crawlArg));
SegmentReader.main(tokenize(dumpArg));
有人可以帮我吗