问题标签 [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 重点命名实体识别(NER)?
我想识别特定领域(例如棒球)中的命名实体。我知道有可用的工具,如 StanfordNER、LingPipe、AlchemyAPI,我对它们进行了一些测试。但正如我之前提到的,我希望它们是特定于领域的。这怎么可能?
text - 命名实体作为文本分类中的一个特征?
使用现有的文本分类(监督)技术,为什么我们不将文本中的命名实体 (NE) 视为训练和测试中的一个特征?您认为我们可以通过使用 NE 作为一项功能来提高精度吗?
html - OpenNLP 可以使用 HTML 标签作为训练的一部分吗?
我正在使用转换为纯文本的 html 文档为 TokenNameFinder 创建一个训练集,但我的精度很低,我想使用 HTML 标签作为训练的一部分。就像粗体字和不同边距大小的句子一样。OpenNLP 会接受并使用这些标签来创建规则吗?还有其他方法可以利用这些标签来提高精度吗?
java - 斯坦福 NER:提取单独的实体列表?
我可以使用以下代码获取带有命名实体注释的字符串。
我想知道是否有任何方法可以调用,以便我可以在文件中获取单独的实体(PERSON、ORGANIZATION、LOCATIOIN)列表,这样我就不必使用上述方法解析检索到的字符串来获取实体清单?
nltk - 使用 nltk 将日期识别为命名实体?
我正在尝试使用 NLTK 命名实体标记器来识别各种命名实体。在《Natural Language Processing with Python 》一书中,他们提供了常用命名实体的列表(表 7.4,如果有人好奇的话),其中包括:DATE June, 2008-06-29 和 TIME 25 am, 1:30 pm 所以我得到的印象是这可以用 NLTK 的命名实体标记器来完成。
但是,当我运行标记器时,它似乎根本没有选择日期或时间,就像人或组织一样。NLTK 命名实体标记器是否不处理这些日期/时间情况,还是只选择特定的日期/时间格式?如果它不处理这些情况,是否有人知道可以处理的系统?还是创建我自己的唯一解决方案?
谢谢!
annotations - 半自动注释工具 - 如何找到 RDF 三元组
我正在为医学文本开发一个半自动注释工具,我完全迷失在寻找用于注释的 RDF 三元组。
我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP,它们都没有用于提取疾病名称的模型。
我的问题是:* 如何创建一个新的 NER 模型来提取疾病名称?我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗?* 除了 NLP 之外,还有另一种方法可以从文本中提取 RDF 三元组吗?
任何帮助,将不胜感激!谢谢。
nlp - 用于命名实体识别的语言无关工具
有人知道是否有任何与语言无关的命名实体识别库吗?
谢谢
named-entity-recognition - 使用斯坦福 NER 在多个文件上标记 NE
我想使用斯坦福 NER 在多个文件中标记名称实体。在文档中,据说我们可以使用-testFiles
带有逗号分隔的测试文件列表的选项,但在我的情况下它不起作用,例如:
但是当我们只输入一个文件时它可以工作。
系统是否也对所有多个文件进行内联评估(FOR P、R)?我只是想知道在多个文件的情况下它是如何工作的。
提前致谢。
哈达卡
nlp - 实体情绪分析(Entity-level Sentiment Analysis)
自过去 1 年以来,我一直在从事文档级别的情绪分析。文档级情感分析提供完整文档的情感。例如 - 文本“诺基亚很好,但沃达丰很糟糕”将具有与之相关的负面极性,因为它与诺基亚和沃达丰实体无关。怎么可能获得实体层面的情绪,比如对诺基亚有利但对沃达丰不利?有没有研究论文可以解决这些问题?
python - 荷兰语 NLTK 命名实体识别
我正在尝试从荷兰语文本中提取命名实体。我使用nltk-trainer在 conll2002 荷兰语语料库上训练一个标注器和一个分块器。但是,来自分块器的 parse 方法没有检测到任何命名实体。这是我的代码:
这个程序的输出:
我期待 Christiane 被检测为命名实体。有什么帮助吗?