问题标签 [named-entity-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
316 浏览

stanford-nlp - 斯坦福命名实体标记器 - 不一致?

我有一个奇怪的问题。

我有一个句子列表(大约 10 万个),要使用 stanford 命名实体识别(ner)标记进行标记。我使用 stanford ner 演示网站(Java 演示代码)提供的以下代码行进行标记。

我认为一切正常,直到我手动检查了一些根本没有标记的句子,这些句子应该被标记。但是,当这些未标记的句子被手工挑选到一些示例列表中并使用上面的代码进行测试时,它们就会被标记。所以我很困惑我哪里出错了。未正确标记的句子在 1000 - 1500 个句子的范围内。因此,当我在单独的列表中运行这些错误标记的句子时,它们就会被标记。数据集的大小(10 万)对分类器有影响吗?

例如:考虑以下句子 - “IBM Corporation Introduction” 在我的 10 万数据集中,类似上面的句子数量相当可观。因此,当我在 10 万个数据集上使用上述代码进行标记时,许多这样的句子根本没有标记。但是当我亲自挑选这些并放入列表中然后进行标记时,它们就会被标记。

我已经尝试了所有方法,但在对整个数据集进行标记时,我最终得到了相同的结果,即没有对上述句子进行标记。

我尝试了以下 3 种不同的方法 1.classifier.classifyToString(inputString, "slashTags", false) 2.classifier.classify(inputString) 3.classifier.classifyToCharacterOffsets(inputString)

我哪里出错了有什么想法或建议吗?

谢谢

0 投票
0 回答
135 浏览

stanford-nlp - 使用带有一些语法表达式匹配的斯坦福命名实体识别器 (NER)

在我的文档中,所有的句子都是用这个特定的语法表达式构建的:A:person B:location C:work。
如果我想提取命名实体(Tom:PERSON),该怎么做?
我使用了Stanford Named Entity Recognizer,但我找不到大量数据来训练分类器,我不想这样做。所以我们可以通过其他方式找到实体吗?

0 投票
2 回答
1839 浏览

nlp - 姓名提取 - 简历/简历 - 斯坦福 NER/OpenNLP

我目前正在进行一个学习项目,以从他们的简历/简历中提取个人姓名。

目前我正在与 Stanford-NER 和 OpenNLP 合作,它们都在开箱即用方面取得了一定程度的成功,倾向于在“非西方”类型名称上挣扎(无意冒犯任何人)。

我的问题是 - 鉴于简历/简历中个人姓名普遍缺乏句子结构或上下文,我是否可能通过创建类似于 CV 语料库的内容来显着改善姓名识别?

我最初的想法是,我可能会通过拆分句子、删除明显的文本并应用一些逻辑来对个人的名字做出最好的猜测来获得更大的成功。

如果名称出现在结构化句子中,我可以看到培训将如何工作,但是作为没有上下文的独立实体(例如 Akbar Agho),我怀疑无论培训如何,它都会遇到困难。

是否存在某种程度的 AI,如果给定足够的数据将开始制定查找名称的模式,或者我是否应该只应用基于逻辑的字符串提取级别?

我很欣赏人们的想法、意见和建议。

旁注:我一直在使用 PHP 和 Appache Tika 从 Doc/Pdf 中进行初始文本提取,并且正在通过 PHP/命令行尝试斯坦福和 OpenNLP。

克里斯

0 投票
1 回答
860 浏览

continuous-deployment - 使用小数据集(语料库)的命名实体识别

我想用波斯语开发一个命名实体识别系统,但我们有一个小的 NER 标记语料库用于训练和测试。也许将来我们会有更好更大的语料库。顺便说一句,我需要一个解决方案,只要添加新数据而不将新数据与旧数据合并并从头开始训练,就可以逐步获得更好的性能。有什么解决办法吗?

0 投票
1 回答
234 浏览

entity - 如何使用维基百科 API 扩展实体?

我正在写我的论文,我遇到了一个我不知道如何正确处理的问题。

我正在对推文进行聚类,鉴于它们携带的信息很少,我想通过访问 Wikipedia 并考虑有关这些信息的信息来扩展我在文本中找到的实体。

当我开始查看 Wikipedia API时,我的问题就出现了。它具有如此多的属性和如此多的配置可能性,以至于我不知道如何从文章中提取相关信息,这些信息可以用来将实体相互关联。

我不只是看看,说太难了,就来这里问。我尝试了一些事情,至少我知道我应该向 API 询问的事情是道具,而不是列表信息。

例如,我尝试将prop=linkshere作为关于 Pau Gasol 的查询的操作,并根据文档:查找链接到给定页面的所有页面,但我得到了由 Wikipedia API 检索到的有关 Pau Gasol 与 Kareem Abdul-Jabar 的信息,当我转到 Kareem Abdul-Jabar 页面(相同的 pageid)时,我都没有'找不到任何对 Pau 的参考,我也没有从 Pau's 找到任何对 Kareem 的参考

在维基百科中扩展实体的最佳查询是什么?

0 投票
2 回答
233 浏览

stanford-nlp - 从文本中发现新实体

我正在从文本中发现新实体,想知道 stanford nlp 是否可以用于此目的?实际上我所知道的是,斯坦福需要经过训练的分类器来识别实体,但如果我没记错的话,它只会检测已知实体,例如,如果你的模型包含“斯坦福是一所好大学”并且斯坦福已经是一个已知实体,如果我尝试“fooo 是一所好大学”它不会承认它是一个新实体

0 投票
0 回答
137 浏览

php - 斯坦福 NER 已在 localhost 中准备就绪,如何将其推送到实时服务器?

我对Java很陌生。我用 php 编写了我的 NER 脚本,如下所示:

但问题是,我想将包推送到实时服务器。NER 是 Java,我的脚本是 php。

我尝试将 stanford-ner.jar 推送到 java 主机上,并将脚本的其余部分推送到 apache 主机上,然后将上面的 $pos 更改为:

它不起作用。请帮忙

0 投票
1 回答
1457 浏览

python - NLTK 对实体的情绪

我刚刚开始使用 NLTK,我认为我需要完成的任务非常简单。我需要解析一些文档并提取对某些实体的情绪。例如以下句子的整体情绪:

是负面的,但我想提取对单个预定义实体的情绪。特别是,在前面的示例中,我想将我的实体提供给 NLTK,('tea', 'coffee')并能够分别提取sentiment('tea')和提取sentiment('coffee')。我通读了这份文档,但找不到完成这个简单任务的方法。

0 投票
2 回答
1271 浏览

nlp - 斯坦福 CoreNLP 命名实体识别如何捕获 5 英寸、5 英寸、5 英寸、5 英寸等测量值

我正在寻找使用Stanford CoreNLP捕获测量值。(如果你能推荐一个不同的提取器,那也很好。)

例如,我想找到15kg15 kg15.0 kg15 kg15 lbs15磅等。但是在 CoreNLPs 提取规则中,我没有看到用于测量的规则。

当然,我可以使用纯正则表达式来做到这一点,但是工具包可以运行得更快,并且它们提供了在更高级别进行分块的机会,例如将gbgb一起处理,并将RAM内存视为构建块——即使没有完整的句法解析——因为他们构建了更大的单元,如128 GB RAM8 GB 内存

我想要一个基于规则的提取器,而不是基于机器学习的),但不要将其视为RegexNer或其他地方的一部分。我该怎么做?

IBM Named Entity Extraction可以做到这一点。正则表达式以一种有效的方式运行,而不是通过每个正则表达式传递文本。并且正则表达式被捆绑以表达有意义的实体,例如将所有测量单位联合成一个概念的实体。

0 投票
1 回答
25 浏览

text-mining - 链接相关主题 IR

如何通过文本文档链接它们之间有某种关系的词条(关键词实体) 。例如,当您搜索一个人时,谷歌会显示与该人相关的其他人的推荐

在此处输入图像描述

在这张照片中,它计算出了配偶总统候选人平等称号。

我正在使用频率计数技术。在同一个文档中出现的两个术语越多,它们产生某种关系的机会就越大。但这也链接了文本文档中不相关的术语,如页面标记、动词和页面引用。

我应该如何改进它,还有其他简单但可靠的技术吗?