solr - 提取相似术语 Solr

Question

我想从数据集中提取所有相似的术语，然后对它们进行否定约束查询。例如。

对于索引集，我如何推断黑莓和诺基亚是两个相似的术语。或者说是 2 种类似的商品。

这可以通过solr实现吗？? 这不是同义词。但我需要实现相似性约束。

score 0 · Accepted Answer

当然不是您正在寻找的确切案例，但您可以使用 Mahout查看Solr 。
Mahout 为主题建模提供LDA支持，这将帮助您从数据集中对主题进行分组

主题模型大致是一个分层贝叶斯模型，它与每个文档相关联“主题”的概率分布，而这些概率分布又是单词的分布。
例如，新闻专线集合中的主题可能包括有关“运动”的词，例如“棒球”、“本垒打”、“球员”，而有关棒球中使用类固醇的文档可能包括“运动”、“药物” ，和“政治”。请注意，标签“体育”、“毒品”和“政治”是人为分配的事后标签，并且算法本身仅分配与概率相关的词。这些模型中参数估计的任务是了解主题是什么，

因此，如果在一个数据集中，如果您有 Mobiles 的文档，您将获得一组包含 blackberry、iphone、mobile 等的术语。
这些可能不是相似的术语，但与同一主题相关。

solr - 提取相似术语 Solr

1 回答 1

Related

Reference