问题标签 [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
27362 浏览

python - 具有自定义数据的 NLTK 命名实体识别

我正在尝试使用 NLTK 从我的文本中提取命名实体。我发现 NLTK NER 对我的目的来说不是很准确,我也想添加更多我自己的标签。我一直在尝试找到一种方法来训练我自己的 NER,但我似乎无法找到合适的资源。我有几个关于 NLTK 的问题-

  1. 我可以使用自己的数据在 NLTK 中训练命名实体识别器吗?
  2. 如果我可以使用自己的数据进行训练,named_entity.py 是要修改的文件吗?
  3. 输入文件格式是否必须在 IOB 中,例如。埃里克 NNP B 人?
  4. 是否有任何资源 - 除了我可以使用的 nltk 食谱和带有 python 的 nlp 之外?

我非常感谢这方面的帮助

0 投票
4 回答
1005 浏览

python - 从文本中提取维基百科条目

我有一个大文本,我想解析这个文本并识别(例如,这个文本中存在的维基百科条目)。

我想过使用正则表达式,例如:

...等等,但这将是数百万个字符,并且 re 不接受...

我想到的另一种方法是标记我的文本并搜索每个标记的维基百科条目,但这看起来效率不高,特别是如果我的文本太大......

任何想法如何在 Python 中做到这一点?

0 投票
1 回答
1881 浏览

java - OpenNLP Namefinder API 中的自定义特征生成

我正在尝试将 OpenNLP 的自定义功能生成用于 Named Finder API。

http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html

我浏览了文档,但无法理解如何指定不同的功能。

它只是说:

但是您如何实际使用这些不同的特征生成器来创建我自己的自定义特征。有人可以发布一个定义这些特征生成器的示例代码,以及我们如何使用它来生成自定义特征。感谢期待。

0 投票
5 回答
3079 浏览

machine-learning - 疾病命名实体识别

我有一堆描述疾病的文本文件。这些文件在大多数情况下都很短,而且通常只包含一个句子。这里给出一个例子:

原发性肺动脉高压是一种进行性疾病,其中最小的肺动脉广泛闭塞导致肺血管阻力增加,随后导致右心室衰竭。

我需要的是一个工具,它可以在句子中找到所有疾病术语(例如,在这种情况下为“肺动脉高压”)并将它们映射到像MeSH这样的受控词汇表。

提前感谢您的回答!

0 投票
0 回答
528 浏览

java - lingpipe - 如何将令牌和命名实体提取到单个列表中

我正在开发一个需要从文本中提取标记的项目。此令牌还应包含命名实体。

例如,文本:

我想要的输出

我可以使用 LingPipe 进行令牌提取,但我不知道如何使用基于精确字典的分块方法来获得我想要的输出。关于如何去做的想法/例子将不胜感激。

0 投票
0 回答
701 浏览

java - GATE:在 ANNIE 中,运行 Pronominal Coreference 模块后提取命名实体

摘要: 在 GATE 网站上有这个例子。http://gate.ac.uk/wiki/jape-repository/coordinated-annotations.html#section-3

此规则引用仅在运行共同引用模块后才会出现的结果。有没有办法在共同参考模块之后无需再次运行 NE 转换器来提取实体?

我的具体问题: 目前我有一个规则可以提取一个我用“对象”注释标记的名词短语。此规则不匹配以代词结尾的短语,因此它不匹配“it”。但是,我正在尝试使用 ANNIE 中的 Pronominal Coreference 模块将“它”的实例链接到它可能共同引用的其他“对象”。

问题是,由于我的“对象”注释与“它”的实例不匹配,我使用“对象”注释的其他规则不会匹配名词短语是单词“it”但它确实引用的句子另一个“对象”。所以实际上,我的规则应该匹配这句话。

如果我在 Pronominal Coreference 模块之后再次运行 NE 换能器,则可以解决此问题,但这当然会很昂贵且多余。

有一个更好的方法吗?显而易见的事情是改变我的规则以匹配“它”的实例,但如果有更好的方法,我想尝试一下。

0 投票
5 回答
1706 浏览

perl - 从 Perl 中的一段文本中提取一个人的全名?

我需要使用 Perl 从文本块中提取名称(包括不常见的名称)。我研究了这个模块来提取名字,但它只有 1990 年以来美国最受欢迎的 1000 个名字和姓氏;我需要一些更全面的东西。

我曾考虑使用社会保障指数来建立一个数据库进行比较,但这似乎非常繁琐且处理密集。有没有办法使用另一种方法从 Perl 中提取名称?

要解析的文本示例:

LADNIER
Louis Anthony Ladnier,[Louie] 48 岁,来自阿拉巴马州莫比尔,于 2012 年 11 月 16 日星期五在家中去世。
路易 1964 年 1 月 9 日出生于阿拉巴马州莫比尔。他是 John E. Ladnier, Sr. 和 Gloria Bosarge Ladnier 的儿子。他毕业于 McGill-Toolen 高中,并就读于南阿拉巴马大学。他一直受雇于 Bayou La Batre 警察局担任通讯主管,直至医疗退休。
他的父亲约翰先于他去世。他的母亲格洛丽亚、侄子多米尼克拉德尼尔和克里斯蒂安卢比奥幸存下来,他深爱并帮助抚养他们成为自己的儿子、姐妹 Marj Ladnier 和 Morgan Gordy [Julian],以及兄弟 Eddie Ladnier [Cindy],以及侄子 Jamie,乔伊、埃迪、威尔、本和侄女、安娜和伊丽莎白。
追悼会将于周三下午 1 点在莫比尔的圣多米尼克天主教堂举行。
宁静殡仪馆负责安排。
代替鲜花,可将纪念物寄至 St. Dominic Sc​​hool, 4160 Burma Road Mobile, AL 36693, education fund for Christian Rubio and McGill-Toolen High School, 1501 Old Shell Road Mobile, AL 36604, education Fund for Dominic Ladnier。
家人感谢这段时间的所有祈祷和支持。路易对我们所有人来说都是一块石头和快乐。

0 投票
3 回答
2193 浏览

nlp - 实体提取库

我正在寻找一个进行文本分析和提取实体的库。

实体的类型/分类并不重要,重要的是确定有价值的东西。在这种情况下,实体宇宙是无限的,它不受固定字典的限制。

似乎有几个网络服务可以做到这一点(NERD 让您比较这些网络服务的结果:http: //nerd.eurecom.fr/documentation非常有用),但我正在寻找本地图书馆而不是远程托管服务。我更喜欢 Java 或 .NET,但如果它是一个好的库,我会学习它所用的任何语言。

关于类似主题的旧线程很少,我希望在这个领域找到新的发展,和/或建立在较低级别的 NLP 库之上的库:

有谁知道一个做得不错的图书馆?

0 投票
8 回答
9948 浏览

nlp - 斯坦福命名实体识别器中的多术语命名实体

我正在使用斯坦福命名实体识别器http://nlp.stanford.edu/software/CRF-NER.shtml,它工作正常。这是

然而,我发现的问题是识别姓名和姓氏。如果识别器遇到“Joe Smith”,它会分别返回“Joe”和“Smith”。我真的很希望将“乔·史密斯”作为一个术语返回。

这可以通过识别器通过配置来实现吗?直到现在我还没有在 javadoc 中找到任何东西。

谢谢!

0 投票
3 回答
1512 浏览

stanford-nlp - 是否可以获得一组包含短语的特定命名实体标记

我正在使用斯坦福 CoreNLP 解析器来处理一些文本,并且有一些日期短语,例如“十月的第二个星期一”和“过去的一年”。该库会将每个标记适当地标记为 DATE 命名实体,但是有没有办法以编程方式获取整个日期短语?不仅仅是日期,ORGANIZATION 命名实体也会这样做(例如,“国际奥林匹克委员会”可能是给定文本示例中标识的实体)。

在斯坦福注释器和分类器加载之后,将产生输出:

我觉得图书馆必须识别短语并将它们用于命名实体标记,所以问题是数据是否通过 api 以某种方式保存和可用?

谢谢,凯文