2

是否有任何具有给定文本(标题)的 java 库在其中获取重要单词的集合。
已编辑:我所说的重要是指定义了句子主要思想的那个。谢谢你。

4

3 回答 3

4

您可能想看看Apache Mahout

您可能还想阅读更多关于tf-idf 模型的信息,该模型通常用于与您描述的案例类似的情况。

编辑:有关 Tf-Idf 模型的更多信息:

tf-idf 模型基本上说了两件事:

  1. 如果一个术语在您的数据中出现多次,它可能很重要。[tf]
  2. 如果一个术语在世界上多次出现,那么它会出现在您的数据中——但是,如果它很少见——并且它出现在你的数据中——这表明它是一个非常“重要的”[idf]

tf-idf 模型利用此假设并根据 tf,idf 值对每个术语进行评分。
要查找 idf 值,您可能需要索引您的集合或使用一些搜索引擎 API,并根据结果的数量估计每个术语的常见程度 [注意,引擎返回的数字不准确,但可能会使用粗略估计]

于 2012-01-27T21:28:44.570 回答
2

主题模型尝试对文档(或文档集合)执行此操作。我怀疑你可以用单个句子做很多事情。

您可以尝试使用语义解析器(例如RelEx)来尝试获取主要主题/对象/等,但这仍然不是那么简单。

您正在尝试做的一些示例会有所帮助。“定义主要思想”仍然很模糊 - 你在处理什么类型的句子?

于 2012-01-27T21:34:05.817 回答
2

考虑到您只使用titles,我想几乎任何不是停用词的词都很重要。

也许您只是在寻找一个基本的停用词删除算法,而不是一个完整的文本分析算法?

只是取决于你需要这个东西有多复杂或“聪明”。

于 2012-01-27T21:55:21.967 回答