我想从数据集中提取所有相似的术语,然后对它们进行否定约束查询。例如。
对于索引集,我如何推断黑莓和诺基亚是两个相似的术语。或者说是 2 种类似的商品。
这可以通过solr实现吗?? 这不是同义词。但我需要实现相似性约束。
我想从数据集中提取所有相似的术语,然后对它们进行否定约束查询。例如。
对于索引集,我如何推断黑莓和诺基亚是两个相似的术语。或者说是 2 种类似的商品。
这可以通过solr实现吗?? 这不是同义词。但我需要实现相似性约束。
当然不是您正在寻找的确切案例,但您可以使用 Mahout查看Solr 。
Mahout 为主题建模提供LDA支持,这将帮助您从数据集中对主题进行分组
主题模型大致是一个分层贝叶斯模型,它与每个文档相关联“主题”的概率分布,而这些概率分布又是单词的分布。
例如,新闻专线集合中的主题可能包括有关“运动”的词,例如“棒球”、“本垒打”、“球员”,而有关棒球中使用类固醇的文档可能包括“运动”、“药物” ,和“政治”。请注意,标签“体育”、“毒品”和“政治”是人为分配的事后标签,并且算法本身仅分配与概率相关的词。这些模型中参数估计的任务是了解主题是什么,
因此,如果在一个数据集中,如果您有 Mobiles 的文档,您将获得一组包含 blackberry、iphone、mobile 等的术语。
这些可能不是相似的术语,但与同一主题相关。