在 ES 中添加语义的最佳方法是什么?我读过这篇文章:Semantic search with NLP and elasticsearch,但是这里有很多手动的东西,而且这已经很老了。例如:在无监督的任务中,不可能事先知道主题列表和文档所属的主题。此外,这个问题与文档的聚类不同。由于通过聚类,您可以说出所有文档的相似之处。但是有没有办法让我们查询这些类似的文件。
例如:“机器学习”查询应该让我得到“数据科学”或“数据挖掘”或“模式识别”文档,而不是“机器操作员”具有权重的文档。在这里聚类(可能是 LDA)可能会有所帮助,但它并不完全是聚类文档会为查询提供文档,它可能是它的扩展(我不知道)。还是我们只在聚类文档时减少搜索空间并使用基于 TF 的算法。集群上。
我尝试使用 LSA 来解决这个问题。LSA 会给我减少矩阵(通过 SVD),但我将如何在 ES 中使用这个结果?即使我们这样做,它将如何扩展?
有没有更好的方法?