indexing - 如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

Question

每当 Solr 被索引到集合（使用 configSet sample_techproducts_configs）并使用 URL 时，通过以下命令：

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3

创建的索引确实有一个字段content复制到text字段。该字段确实具有使用嵌入式 tika 解析解析的网页内容的值。

但是，当这些网页包含任何<script>或<style>标签时，它们<body>会被删除，但这些相应标签内的脚本或样式仍保留为网页的内容，并在响应 Solr 查询时显示。

如何删除这些不需要的内容？

score 0 · Accepted Answer

请阅读in （仅针对内容类型为“text/html”的人，并使用其内容删除所有inputstream和标签，然后使用in函数再次将该 content_String 转换为流。DATA_MODE_WEBSimplePostTool<script><style>stringToStream(String)readPageFromUrl(URL u)

indexing - 如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

1 回答 1

Related

Reference