问题标签 [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3782 浏览

nlp - 命名实体识别数据和特征

我正在构建一个带有条件随机字段的命名实体识别器,并且正在寻找两件事:

A) 用于人员、位置和组织实体的开源英语 NER 数据集

B) 英语 NER 特征列表

我已经查看了 CoNLL-2003 语料库,发现这正是我想要的,但它并不容易获得。我未能成功找到 NER 特征列表;我试图避免手工设计这些功能。

谢谢

0 投票
1 回答
4649 浏览

opennlp - 使用 openNLP 识别命名实体(默认模型)

谁能指出 openNLP NameFinder 模块使用的算法?代码很复杂,而且文档很少,并且作为一个黑盒(提供默认模型)使用它给我的印象是它主要是启发式的。以下是输入和输出的一些示例:

输入:

约翰史密斯很沮丧。

约翰史密斯很沮丧。

巴拉克奥巴马很沮丧。

雨果查韦斯很沮丧。(不再)

杰夫阿特伍德很沮丧。

Bing Liu 对 openNLP NER 模块感到沮丧。

诺姆乔姆斯基对这个世界感到沮丧。

杰登史密斯很沮丧。

史密斯杰登很沮丧。

Lady Gaga 很沮丧。

Gaga 女士很沮丧。

Gaga 夫人很沮丧。

杰登很沮丧。

刘先生很沮丧。

输出(我将菱形改为方括号):

[START:person] John Smith [END] 很沮丧。

约翰史密斯很沮丧。

[START:person] Barak Obama [END] 很沮丧。

雨果查韦斯很沮丧。(不再)

[START:person] Jeff Atwood [END] 很沮丧。

Bing Liu 对 openNLP NER 模块感到沮丧。

[START:person] Noam Chomsky [END] 对这个世界感到沮丧。

Jayden [START:person] Smith [END] 很沮丧。

[START:person] Smith [END] [START:person] Jayden [END] 很沮丧。

Lady Gaga 很沮丧。

Gaga 女士很沮丧。

Gaga 夫人很沮丧。

杰登很沮丧。

刘先生很沮丧。

该模型似乎只是学习了在训练数据中注释的固定名称列表,并允许进行一些平铺和组合。两个值得注意的 (FN) 示例是:

  1. 忽略诸如 Mr. 和 Mrs. 之类的强姓名指示符。
  2. Jayden(2011 年美国最受欢迎的第 4 名)未被确定,而以下“Smith”(在“Jayden Smith...”中)被确定。我怀疑模型“认为”句子开头的大写 Jayden 是句子的开头而不是 NE。颠倒顺序,“Smith Jayden”作为提示(假设为 1),openNLP 将其识别为两个独特的 NE,与其他全名(例如“John Smith”)不同,可能暗示“Smith”在姓氏列表中。 .

-> 我感到困惑和沮丧,如果有人能指出我的算法(或验证它很糟糕),我将不胜感激。

ps 斯坦福和 UIUC NER 系统的性能要好得多,但存在一些有趣但偏离主题的细微差异(这个问题太长了)

0 投票
1 回答
6614 浏览

c#-4.0 - 在 Castle.Windsor 中注册和解析命名实例

我似乎无法将正确的实例注入到类 ctor 中。这是我正在尝试做的事情:

谁能发现问题?

0 投票
1 回答
2088 浏览

opennlp - 如何为非英语语言训练 OpenNLP?

是否可以使用 OpenNLP API 为不同于英语的语言训练 OpenNLP,例如用西里尔字母编写的斯拉夫语言?

0 投票
3 回答
16061 浏览

nlp - 使用斯坦福 NLP 训练 n-gram NER

最近我一直在尝试用斯坦福核心 NLP 训练 n-gram 实体。我遵循了以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b

有了这个,我只能指定一元标记和它所属的类。任何人都可以指导我,以便我可以将其扩展到 n-gram。我正在尝试从聊天数据集中提取已知实体,例如电影名称。

请指导我,以防我误解了斯坦福教程,并且同样可以用于 n-gram 训练。

我坚持的是以下属性

这里第一列是单词(unigram),第二列是实体,例如

现在我需要将已知实体(比如电影名称)训练为电影,比如HulkTitanic等,使用这种方法会很容易。但如果我需要训练,我知道你去年夏天婴儿节外出做了什么,最好的方法是什么?

0 投票
1 回答
8727 浏览

python-2.7 - How do I use python interface of Stanford NER(named entity recogniser)?

I want to use Stanford NER in python using pyner library. Here is one basic code snippet.

When I run this on my local python console(IDLE). It should have given me an output like this

but when I execut this, it showed empty brackets. I am actually new to all this.

0 投票
2 回答
1792 浏览

java - 使用斯坦福命名实体识别器时如何包含多个分类器?

我运行以下命令来启动 NER 服务器

在这里,我使用了我手动创建的分类器(ner-model.ser.gz)。我想使用默认分类器english.muc.7class.distsim.crf.ser.gz(由他们提供)和我创建的分类器

我尝试了以下命令

但它没有用。请帮忙,因为我是新手。

0 投票
1 回答
2515 浏览

nlp - 如何解决命名实体识别中的同义词?

在自然语言处理中,命名实体识别是识别诸如组织、地点和最重要的名称等命名实体的挑战。

尽管我称之为同义词,但其中有一个重大挑战:伯爵德古拉实际上指的是同一个人,但可能从未在文本中直接讨论过。

解决这些同义词的最佳算法是什么?


如果任何基于 Python 的库中有此功能,我渴望接受教育。我正在使用 NLTK。

0 投票
1 回答
66 浏览

wikipedia - 获取类似谷歌Knowldge Graph数据的最佳方式是什么

我需要类似于 GKG 的数据,主要用于命名实体识别。基本上我想使用实体背后的上下文(额外信息)进行实体识别。建议的数据使用方式是什么?

我发现 DBPedia 提供了所需的内容,但我觉得数据不完整。对于像“Larry_Page”这样的实体,在 3.8 版本的 instance_types 转储中,内容似乎是

因此,对于“Larry_Page”,信息仅限于“Person”类型。有什么方法可以让我获得完整的实体层次结构及其类型?

0 投票
6 回答
20756 浏览

nlp - BILOU 标签在命名实体识别中的含义是什么?

标题几乎概括了这个问题。我注意到在一些论文中,人们提到了 NER 的 BILOU 编码方案,而不是典型的 BIO 标记方案(例如 Ratinov 和 Roth 在 2009 年的这篇论文http://cogcomp.cs.illinois.edu/page /publication_view/199 )

通过使用 2003 CoNLL 数据,我知道

虽然有人告诉我 BILOU 中的词代表

我还看到人们引用另一个标签

我对 NER 文献很陌生,但我一直无法找到清楚解释这些标签的东西。我的问题特别涉及“最后”和“结束”标签之间的区别,以及“单位”标签代表什么。