0

如果我将 StormCrawler 的 ContentParseFilter 设置为

"pattern": "//DIV[@id=\"site-body\"]",

这是否意味着在处理每个 url 时它会寻找指向其他页面的链接的唯一地方?我想知道我是否设置它是否会开始忽略菜单中的所有网址等。

谢谢!吉姆

4

1 回答 1

0

参见ParseFilters 的 WIKI 页面

ContentFilter 允许将文档的文本限制为 Xpath 表达式所涵盖的文本

它根本不影响链接的提取,而是旨在改进索引的文本。

于 2018-09-06T16:27:52.047 回答