问题标签 [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 命名实体识别数据和特征
我正在构建一个带有条件随机字段的命名实体识别器,并且正在寻找两件事:
A) 用于人员、位置和组织实体的开源英语 NER 数据集
B) 英语 NER 特征列表
我已经查看了 CoNLL-2003 语料库,发现这正是我想要的,但它并不容易获得。我未能成功找到 NER 特征列表;我试图避免手工设计这些功能。
谢谢
opennlp - 使用 openNLP 识别命名实体(默认模型)
谁能指出 openNLP NameFinder 模块使用的算法?代码很复杂,而且文档很少,并且作为一个黑盒(提供默认模型)使用它给我的印象是它主要是启发式的。以下是输入和输出的一些示例:
输入:
约翰史密斯很沮丧。
约翰史密斯很沮丧。
巴拉克奥巴马很沮丧。
雨果查韦斯很沮丧。(不再)
杰夫阿特伍德很沮丧。
Bing Liu 对 openNLP NER 模块感到沮丧。
诺姆乔姆斯基对这个世界感到沮丧。
杰登史密斯很沮丧。
史密斯杰登很沮丧。
Lady Gaga 很沮丧。
Gaga 女士很沮丧。
Gaga 夫人很沮丧。
杰登很沮丧。
刘先生很沮丧。
输出(我将菱形改为方括号):
[START:person] John Smith [END] 很沮丧。
约翰史密斯很沮丧。
[START:person] Barak Obama [END] 很沮丧。
雨果查韦斯很沮丧。(不再)
[START:person] Jeff Atwood [END] 很沮丧。
Bing Liu 对 openNLP NER 模块感到沮丧。
[START:person] Noam Chomsky [END] 对这个世界感到沮丧。
Jayden [START:person] Smith [END] 很沮丧。
[START:person] Smith [END] [START:person] Jayden [END] 很沮丧。
Lady Gaga 很沮丧。
Gaga 女士很沮丧。
Gaga 夫人很沮丧。
杰登很沮丧。
刘先生很沮丧。
该模型似乎只是学习了在训练数据中注释的固定名称列表,并允许进行一些平铺和组合。两个值得注意的 (FN) 示例是:
- 忽略诸如 Mr. 和 Mrs. 之类的强姓名指示符。
- Jayden(2011 年美国最受欢迎的第 4 名)未被确定,而以下“Smith”(在“Jayden Smith...”中)被确定。我怀疑模型“认为”句子开头的大写 Jayden 是句子的开头而不是 NE。颠倒顺序,“Smith Jayden”作为提示(假设为 1),openNLP 将其识别为两个独特的 NE,与其他全名(例如“John Smith”)不同,可能暗示“Smith”在姓氏列表中。 .
-> 我感到困惑和沮丧,如果有人能指出我的算法(或验证它很糟糕),我将不胜感激。
ps 斯坦福和 UIUC NER 系统的性能要好得多,但存在一些有趣但偏离主题的细微差异(这个问题太长了)
c#-4.0 - 在 Castle.Windsor 中注册和解析命名实例
我似乎无法将正确的实例注入到类 ctor 中。这是我正在尝试做的事情:
谁能发现问题?
opennlp - 如何为非英语语言训练 OpenNLP?
是否可以使用 OpenNLP API 为不同于英语的语言训练 OpenNLP,例如用西里尔字母编写的斯拉夫语言?
nlp - 使用斯坦福 NLP 训练 n-gram NER
最近我一直在尝试用斯坦福核心 NLP 训练 n-gram 实体。我遵循了以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b
有了这个,我只能指定一元标记和它所属的类。任何人都可以指导我,以便我可以将其扩展到 n-gram。我正在尝试从聊天数据集中提取已知实体,例如电影名称。
请指导我,以防我误解了斯坦福教程,并且同样可以用于 n-gram 训练。
我坚持的是以下属性
这里第一列是单词(unigram),第二列是实体,例如
现在我需要将已知实体(比如电影名称)训练为电影,比如Hulk、Titanic等,使用这种方法会很容易。但如果我需要训练,我知道你去年夏天或婴儿节外出做了什么,最好的方法是什么?
python-2.7 - How do I use python interface of Stanford NER(named entity recogniser)?
I want to use Stanford NER in python using pyner library. Here is one basic code snippet.
When I run this on my local python console(IDLE). It should have given me an output like this
but when I execut this, it showed empty brackets. I am actually new to all this.
java - 使用斯坦福命名实体识别器时如何包含多个分类器?
我运行以下命令来启动 NER 服务器
在这里,我使用了我手动创建的分类器(ner-model.ser.gz)。我想使用默认分类器english.muc.7class.distsim.crf.ser.gz
(由他们提供)和我创建的分类器
我尝试了以下命令
但它没有用。请帮忙,因为我是新手。
nlp - 如何解决命名实体识别中的同义词?
在自然语言处理中,命名实体识别是识别诸如组织、地点和最重要的名称等命名实体的挑战。
尽管我称之为同义词,但其中有一个重大挑战:伯爵和德古拉实际上指的是同一个人,但可能从未在文本中直接讨论过。
解决这些同义词的最佳算法是什么?
如果任何基于 Python 的库中有此功能,我渴望接受教育。我正在使用 NLTK。
wikipedia - 获取类似谷歌Knowldge Graph数据的最佳方式是什么
我需要类似于 GKG 的数据,主要用于命名实体识别。基本上我想使用实体背后的上下文(额外信息)进行实体识别。建议的数据使用方式是什么?
我发现 DBPedia 提供了所需的内容,但我觉得数据不完整。对于像“Larry_Page”这样的实体,在 3.8 版本的 instance_types 转储中,内容似乎是
因此,对于“Larry_Page”,信息仅限于“Person”类型。有什么方法可以让我获得完整的实体层次结构及其类型?
nlp - BILOU 标签在命名实体识别中的含义是什么?
标题几乎概括了这个问题。我注意到在一些论文中,人们提到了 NER 的 BILOU 编码方案,而不是典型的 BIO 标记方案(例如 Ratinov 和 Roth 在 2009 年的这篇论文http://cogcomp.cs.illinois.edu/page /publication_view/199 )
通过使用 2003 CoNLL 数据,我知道
虽然有人告诉我 BILOU 中的词代表
我还看到人们引用另一个标签
我对 NER 文献很陌生,但我一直无法找到清楚解释这些标签的东西。我的问题特别涉及“最后”和“结束”标签之间的区别,以及“单位”标签代表什么。