0

每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs)并使用 URL 时,通过以下命令:

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

创建的索引确实有一个字段content复制到text字段。该字段确实具有使用嵌入式 tika 解析解析的网页内容的值。

但是,当这些网页包含任何<script><style>标签时,它们<body>会被删除,但这些相应标签内的脚本或样式仍保留为网页的内容,并在响应 Solr 查询时显示。

如何删除这些不需要的内容?

4

1 回答 1

0

请阅读in (仅针对内容类型为“text/html”的人,并使用其内容删除所有inputstream和标签,然后使用in函数再次将该 content_String 转换为流。DATA_MODE_WEBSimplePostTool<script><style>stringToStream(String)readPageFromUrl(URL u)

于 2017-04-26T11:35:59.503 回答