我正在使用 Storm crawler 1.10 和 Elastic Search 6.3.x。我在配置中添加了 http.content.limit=-1。爬虫运行良好,当我检查结果函数和 css 数据显示在索引中时。是否有可能在 parserfilter.json 中应用 xpath 过滤器(例如:<script>
和<style>
)或任何其他限制爬虫以避免这些的建议。我正在分享一些记录中显示的示例数据。
document.getElementById('cloak6258804dfa0d517eaedf4b69a99ed997').innerHTML = '';
var prefix = 'ma' + 'il' + 'to';
var path = 'hr' + 'ef' + '=';
var addy6258804dfa0d517eaedf4b69a99ed997 = 'admissions' + '@';
addy6258804dfa0d517eaedf4b69a99ed997 = addy6258804dfa0d517eaedf4b69a99ed997 + 'auk' + '.' + 'org';
var addy_text6258804dfa0d517eaedf4b69a99ed997 = 'admissions' + '@' + 'auk' + '.' + 'org';document.getElementById('cloak6258804dfa0d517eaedf4b69a99ed997').innerHTML += '<a ' + path + '\'' + prefix + ':' + addy6258804dfa0d517eaedf4b69a99ed997 + '\'>'+addy_text6258804dfa0d517eaedf4b69a99ed997+'<\/a>'