7

我正在开展一个项目,该项目由一个连接到 NCBI(国家生物技术信息中心)并在那里搜索文章的网站组成。问题是我必须对所有结果进行一些文本挖掘。我正在使用 JAVA 语言进行文本挖掘,并使用带有 ICEFACES 的 AJAX 来开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个 ID 和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词。有任何想法吗 ?我在网上搜索了很多,我知道有命名实体识别,词性标记,基因和蛋白质上有 NER 的 GENIA 词库,我已经尝试过词干... 停用词列表等...我只需要知道解决此问题的最佳方法。非常感谢。

4

4 回答 4

5

我建议您结合使用 POS 标记和字符串标记来从每个摘要中提取所有名词。然后使用某种字典/哈希来计算每个名词的频率,然后输出 N 个最多产的名词.. 将它与其他一些智能过滤机制结合起来应该可以很好地为您提供
用于 POS 标记的摘要中的重要关键字,请查看http://nlp.stanford.edu/software/index.shtml上的 POS 标记器

但是,如果您希望语料库中有很多多词术语.. 而不是只提取名词,您可以采用n=2 到 4的最多产的n-gram

于 2009-05-22T01:32:16.430 回答
1

这也可能是相关的: https ://github.com/jdf/cue.language

它有停用词、单词和 ngram 频率,...

它是Wordle背后软件的一部分。

于 2011-01-12T10:44:25.277 回答
1

有一个 Apache 项目……我没有使用它,但是OpenNLP是一个开源 Apache 项目。它在孵化器里,所以它可能有点生。

杰夫的搜索引擎咖啡馆的这篇文章有许多其他建议。

于 2011-04-15T15:43:37.840 回答
0

我最终使用了Alias`i Ling Pipe

于 2012-11-04T17:18:46.960 回答