我正在开展一个项目,该项目由一个连接到 NCBI(国家生物技术信息中心)并在那里搜索文章的网站组成。问题是我必须对所有结果进行一些文本挖掘。我正在使用 JAVA 语言进行文本挖掘,并使用带有 ICEFACES 的 AJAX 来开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个 ID 和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词。有任何想法吗 ?我在网上搜索了很多,我知道有命名实体识别,词性标记,基因和蛋白质上有 NER 的 GENIA 词库,我已经尝试过词干... 停用词列表等...我只需要知道解决此问题的最佳方法。非常感谢。
问问题
9882 次
4 回答
5
我建议您结合使用 POS 标记和字符串标记来从每个摘要中提取所有名词。然后使用某种字典/哈希来计算每个名词的频率,然后输出 N 个最多产的名词.. 将它与其他一些智能过滤机制结合起来应该可以很好地为您提供
用于 POS 标记的摘要中的重要关键字,请查看http://nlp.stanford.edu/software/index.shtml上的 POS 标记器
但是,如果您希望语料库中有很多多词术语.. 而不是只提取名词,您可以采用n=2 到 4的最多产的n-gram
于 2009-05-22T01:32:16.430 回答
1
于 2011-01-12T10:44:25.277 回答
1
有一个 Apache 项目……我没有使用它,但是OpenNLP是一个开源 Apache 项目。它在孵化器里,所以它可能有点生。
杰夫的搜索引擎咖啡馆的这篇文章有许多其他建议。
于 2011-04-15T15:43:37.840 回答
0
我最终使用了Alias`i Ling Pipe
于 2012-11-04T17:18:46.960 回答