是否有任何具有给定文本(标题)的 java 库在其中获取重要单词的集合。
已编辑:我所说的重要是指定义了句子主要思想的那个。谢谢你。
问问题
1017 次
3 回答
4
您可能想看看Apache Mahout。
您可能还想阅读更多关于tf-idf 模型的信息,该模型通常用于与您描述的案例类似的情况。
编辑:有关 Tf-Idf 模型的更多信息:
tf-idf 模型基本上说了两件事:
- 如果一个术语在您的数据中出现多次,它可能很重要。[tf]
- 如果一个术语在世界上多次出现,那么它会出现在您的数据中——但是,如果它很少见——并且它出现在你的数据中——这表明它是一个非常“重要的”[idf]
tf-idf 模型利用此假设并根据 tf,idf 值对每个术语进行评分。
要查找 idf 值,您可能需要索引您的集合或使用一些搜索引擎 API,并根据结果的数量估计每个术语的常见程度 [注意,引擎返回的数字不准确,但可能会使用粗略估计]
于 2012-01-27T21:28:44.570 回答
2
于 2012-01-27T21:55:21.967 回答