我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入到 Lucene/ElasticSearch 索引中。然后将附加信息添加为元数据,并应提高搜索的精度。
例如,当有人查询“wicket”时,他应该能够确定他是指板球运动还是 Apache 项目。到目前为止,我试图自己实现这一点,但取得了轻微的成功。现在我找到了很多工具,但我不确定它们是否适合这项任务,哪些与 Lucene 集成得很好,或者实体提取的精度是否足够高。
- Dbpedia Spotlight,演示看起来很有希望
- OpenNLP需要训练。使用哪些训练数据?
- OpenNLP 工具
- 斯坦博尔
- NLTK
- 巴列
- UIMA
- 门->示例代码
- Apache Mahout
- 斯坦福 CRF-NER
- maui 索引器
- 槌
- 伊利诺伊州命名实体标记器不是开源但免费的
- 维基百科数据
我的问题:
- 有人对上面列出的一些工具及其精度/召回有经验吗?或者,如果需要 + 可用的训练数据。
- 是否有文章或教程可以让我开始使用每个工具的实体提取 (NER)?
- 它们如何与 Lucene 集成?
以下是与该主题相关的一些问题: