问题标签 [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
604 浏览

opennlp - OpenNLP NameFinder 培训,“发现意外注释”

在训练我的 NameFinderME 时,我收到以下错误消息:

我的数据如下所示: <START someTag> some text <END>

Computing event counts... java.io.IOException: Found unexpected annotation:

在谷歌为这个错误消息找到我的所有其他内容中,训练数据的间距始终是一个简单的错误(例如,更改<START:entity>some text<END><START:entity> some text <END>。这不适用于我(它的间距都正确。)都是 UTF-16,并在我设置对象进行训练时指定为这样。关于什么可能是错误的任何想法?

谢谢,

海象猫

0 投票
2 回答
261 浏览

c# - 将大字符串中的子字符串匹配到大量关键字的最佳方法是什么

想象一下,您有数百万条记录,其中包含平均 2000 个单词(每条)的文本,并且您还有另一个包含大约 100000 个项目的列表。

例如:在关键字列表中,您有一个像“总统奥巴马”这样的项目,而在其中一个文本记录中,您有这样的内容:“..... 奥巴马总统 ....”,所以我想找到这个关键字在文本中并将其替换为类似这样的内容:“..... {president Obama} ....”以突出显示文本中的关键字,关键字列表包含多个名词单词,例如示例。

在拥有数百万条文本记录的如此庞大的列表中,最快的方法是什么?

笔记:

  1. 现在我以一种贪婪的方式做这项工作,逐字检查并匹配它们,但是每个文本记录大约需要 2 秒,我想要一些接近零时间的东西。

  2. 我也知道这类似于命名实体识别,并且我使用过许多 NER 框架,例如 Gate 和 ...,但是因为我想要一种不受框架支持的语言,所以我想手动执行此操作.

0 投票
2 回答
1138 浏览

java - 使用 Stanford CoreNLP/NER 提取标题(书籍、文章等)?

是否有一些标签序列可能指示网页中的标题?例如,从亚马逊页面中提取书名,其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基础的任务,但无法弄清楚如何使用斯坦福的 NER/CoreNLP 来完成它。

提前致谢!

0 投票
1 回答
142 浏览

java - 调整 StanfordCoreNLP 来处理嘈杂的网络文本?

我一直在网站上手动尝试 StanfordCoreNLP NER 和所有内容,例如,它们似乎依赖于非常具体/正确的英语提示来检测实体。但是,在处理网络文本时,您可能会有一些文本,例如


约翰·多伊

计算机科学助理教授

斯坦福大学


StanfordNLP 似乎遇到了一些麻烦(由于缺少介词/标点符号,将整个事物标记为一个组织)。我可以做些什么来让 NER 更好地处理这种文本(例如,对文本进行一些预处理)?

0 投票
1 回答
390 浏览

nlp - 如何在 OpenNLP 中为“乌尔都语”进行 NER 模型的训练?

我想使用 Apache OpenNLP 为我的母语乌尔都语训练 NER 模型。我train.txt准备好了训练数据。制作训练模型(.bin)的下一步是什么,就像我们在OpenNLP 网站上的模型下载部分中找到的那样。

0 投票
3 回答
2734 浏览

python - 命名实体识别:如何标记训练集并选择算法?

对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和委托人(雇用承包商的公司)的模型。

一个例句是:

Blossom Inc. 聘请 Big Think 的顾问制定外包战略。

Blossom Inc是负责人,Big Think是承包商。

我的第一个问题:只标记我的训练集中的委托人和承包商是否足够,还是另外使用 POS 标记更好?

换句话说,要么

Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN Big/CONTRACTOR Think/CONTRACTOR/NN 开发/NN/NN 外包/NN 战略/NN./.

或者

Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/IN Big/CONTRACTOR Think/CONTRACTOR 的/VBZ/DT 顾问/NNS/TO 开发/VB 安/DT 外包/NN 策略/NN./。

第二个问题:一旦我有了我的训练集,nltk-package 的哪些算法最有前途?N-Gram 标记器、Brill 标记器、TnT 标记器、Maxent 分类器、朴素贝叶斯……?还是我在这里完全走错了路?

我是 NLP 的新手,我只是想在投入大量时间标记我的训练集之前征求意见。我的文字是德文的,这可能会增加一些困难......感谢您的任何建议!

0 投票
1 回答
904 浏览

stanford-nlp - 斯坦福 NLP 情感分析与实体识别

我是情绪分析领域的新手,希望得到您的帮助。我需要用 Stanford Core NLP 做的是提供原始文本并获得 2 种结果:

  1. 整个文本的总情绪(例如正面、中性或负面)

  2. 基于实体的情绪(调用一个函数以返回包含所有实体及其情绪的列表,或者调用一个函数,其中我提供所需的实体作为参数并返回与该实体相关的情绪)。

0 投票
1 回答
582 浏览

ruby - Rails 应用程序中的 java.lang.NoClassDefFoundError CRFClassifier

我正在尝试在字符串上运行 CRFClassifier 以从字符串中提取实体。我从这里为斯坦福 NLP 实体识别器使用 Ruby 绑定:https ://github.com/tiendung/ruby-nlp

它在自己的类(nlp.rb)上运行良好。当我运行ruby nlp.rb它工作正常。但是,我尝试在我的 rails 应用程序的一个控制器中创建此类的对象,但由于某种原因,我收到以下错误:

java.lang.NoClassDefFoundError: edu/stanford/nlp/ie/crf/CRFClassifier

这是可以自己正常工作但不在控制器内部的代码。

两种情况下的代码完全相同。任何人都知道这里发生了什么!?

提前致谢!

0 投票
2 回答
2262 浏览

nlp - 自定义 NER 和 POS 标记

我正在查看 Stanford CoreNLP 以了解 NER 和 POS 标记。但是,如果我想为实体创建自定义标签,例如<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>我该怎么做?CoreNLP 在这种情况下有用吗?

0 投票
1 回答
420 浏览

opennlp - 如何在 OpenNLP 命名实体识别工具中添加 POS 标签功能

我正在尝试在具有词性标记功能的项目中设置 OpenNLP NameFinder。我从FeatureGeneratorAdapter类扩展了我的要素类,并覆盖了以下方法。不幸的是,此方法仅在参数中采用原始标记。问题是如何将 POS 标签信息传递给这个方法?

public void createFeatures(List features, String[] tokens, int index, String[] previousOutcomes)