我正在使用带有 JDBC 驱动程序的 logstash 将一堆数据从 SQL Server 批量导入到 Elasticsearch。(最终目标是让这些数据可以从 Web 前端进行搜索。)
表格列之一包含 HTML 标记(<span id='blah'>
、、<p class='foo'>
等)。我希望内容是可搜索的,但要忽略标签。也就是说,如果有人搜索单词“foo”,则<p class='foo'>
不应出现包含的文档。另一方面,我确实希望将包括标记在内的全部内容存储在 Elasticsearch 中。
我可以在我的 logstash.config
文件中做些什么来让 Elasticsearch “意识到”这是 HTML 内容吗?