java - 在 JAVA 中使用哪个 NLP 工具包？

Question

我正在开展一个项目，该项目由一个连接到 NCBI（国家生物技术信息中心）并在那里搜索文章的网站组成。问题是我必须对所有结果进行一些文本挖掘。我正在使用 JAVA 语言进行文本挖掘，并使用带有 ICEFACES 的 AJAX 来开发网站。我有什么：从搜索返回的文章列表。每篇文章都有一个 ID 和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键词，找出重复次数最多的关键词。然后在网站上显示搜索的相关词。有任何想法吗？我在网上搜索了很多，我知道有命名实体识别，词性标记，基因和蛋白质上有 NER 的 GENIA 词库，我已经尝试过词干... 停用词列表等...我只需要知道解决此问题的最佳方法。非常感谢。

score 5 · Accepted Answer

我建议您结合使用 POS 标记和字符串标记来从每个摘要中提取所有名词。然后使用某种字典/哈希来计算每个名词的频率，然后输出 N 个最多产的名词.. 将它与其他一些智能过滤机制结合起来应该可以很好地为您提供
用于 POS 标记的摘要中的重要关键字，请查看http://nlp.stanford.edu/software/index.shtml上的 POS 标记器

但是，如果您希望语料库中有很多多词术语.. 而不是只提取名词，您可以采用n=2 到 4的最多产的n-gram

score 1 · Accepted Answer

这也可能是相关的： https ://github.com/jdf/cue.language

它有停用词、单词和 ngram 频率，...

它是Wordle背后软件的一部分。

score 1 · Accepted Answer

有一个 Apache 项目……我没有使用它，但是OpenNLP是一个开源 Apache 项目。它在孵化器里，所以它可能有点生。

杰夫的搜索引擎咖啡馆的这篇文章有许多其他建议。

score 0 · Accepted Answer

0

我最终使用了Alias`i Ling Pipe

于 2012-11-04T17:18:46.960 回答

java - 在 JAVA 中使用哪个 NLP 工具包？

4 回答 4

Related

Reference