在索引过滤器中,有没有办法找出当前 URL/文档源自的锚文本?我尝试了链接,但这似乎是空的。
public NutchDocument filter(NutchDocument doc, Parse parse, Text url, CrawlDatum datum, Inlinks inlinks) IndexingException {
//Need to know the anchor text from which the current document originated from at this point
}
如果当前 URL 是http://foo.com/pagex ,则必须在http://foo.com找到指向 pagex 的链接。我需要知道这个链接的锚文本。