web-crawler - Stormcrawler 的 ContentParseFilter

Question

如果我将 StormCrawler 的 ContentParseFilter 设置为

"pattern": "//DIV[@id=\"site-body\"]",

这是否意味着在处理每个 url 时它会寻找指向其他页面的链接的唯一地方？我想知道我是否设置它是否会开始忽略菜单中的所有网址等。

谢谢！吉姆

score 0 · Accepted Answer

ContentFilter 允许将文档的文本限制为 Xpath 表达式所涵盖的文本

它根本不影响链接的提取，而是旨在改进索引的文本。

1 回答 1