每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs
)并使用 URL 时,通过以下命令:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
创建的索引确实有一个字段content
复制到text
字段。该字段确实具有使用嵌入式 tika 解析解析的网页内容的值。
但是,当这些网页包含任何<script>
或<style>
标签时,它们<body>
会被删除,但这些相应标签内的脚本或样式仍保留为网页的内容,并在响应 Solr 查询时显示。
如何删除这些不需要的内容?