java - 文档集合中同时出现的词之间的语义相关性

翻译自：https://stackoverflow.com/questions/20683504 2013-12-19T13:53:18.517

134 次

我不确定我的问题本身是否正确，可以在这里发布，但我想我会试一试。

我正在从事一个项目，我从公共知识库中获取文本数据，并希望使用此文本自动扩展基于标签的搜索查询，其中包含应该与原始查询相关的附加术语。公共知识库基本上是来自维基百科的数据集合；就我而言，是 374 万篇文章的摘要。

一开始，我只是根据原始查询执行搜索，从我的查询中获取描述匹配项的文章中使用的词，并进行简单的词频计算以获得 N 个最常用的词。

开始时这似乎是一个简单的想法，但是当我测试更多查询时，我开始遇到问题。很明显，我需要对我的自定义文本集合进行某种语义分析，但我什至不知道从哪里开始做这样的事情。我在网上找到的任何应该进行语义分析的工具都只适用于预定义的文本集合。如前所述：我需要一些可以处理自定义集合并稍后使用该索引执行搜索的东西。

有什么想法或建议吗？

0 回答 0