Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如果我将 StormCrawler 的 ContentParseFilter 设置为
"pattern": "//DIV[@id=\"site-body\"]",
这是否意味着在处理每个 url 时它会寻找指向其他页面的链接的唯一地方?我想知道我是否设置它是否会开始忽略菜单中的所有网址等。
谢谢!吉姆
参见ParseFilters 的 WIKI 页面
ContentFilter 允许将文档的文本限制为 Xpath 表达式所涵盖的文本
它根本不影响链接的提取,而是旨在改进索引的文本。