我正在使用最新版本的 Crawler4j 来抓取一些提要 URL。我已经传递了一些种子 URL 以及文档 ID,并且我还将深度设置为零,因为我只想要该页面的内容。
问题是我无法获取这些种子 URL 的 parentdocid 和 parent URL。我想知道与原始 URL 关联的重定向 URL。
我page.getWebURL().getParentUrl();
用来获取父网址。
有关更详细的说明http://code.google.com/p/crawler4j/issues/detail?id=163
有人有类似的问题吗?
我再次尝试了不同的 URL,但结果仍然相同。controller.addSeed("feeds.reuters.com/~r/reuters/bankruptcyNews/~3/es0kEUT8gI0/",321);
输出: -
ParentDocId 0 DocID 322 父页面 null
UPDATE:--------
我浏览了 crawler4j 代码并暂时解决了我的问题。
-------- PageFetcher.java ---------
if (header != null) {
String movedToUrl = header.getValue();
movedToUrl = URLCanonicalizer.getCanonicalURL(movedToUrl, toFetchURL);
fetchResult.setMovedToUrl(movedToUrl);
webUrl.setParentUrl(webUrl.getURL()); //My Custom Code to add Parent URL.
/*This won't work due to collision with next
document ID which needs to be unique.
webUrl.setParentDocid(webUrl.getDocid());*/
}