0

我正在使用带有 JDBC 驱动程序的 logstash 将一堆数据从 SQL Server 批量导入到 Elasticsearch。(最终目标是让这些数据可以从 Web 前端进行搜索。)

表格列之一包含 HTML 标记(<span id='blah'>、、<p class='foo'>等)。我希望内容是可搜索的,但要忽略标签。也就是说,如果有人搜索单词“foo”,则<p class='foo'>不应出现包含的文档。另一方面,我确实希望将包括标记在内的全部内容存储在 Elasticsearch 中。

我可以在我的 logstash.config文件中做些什么来让 Elasticsearch “意识到”这是 HTML 内容吗?

4

0 回答 0