问题标签 [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1351 浏览

php - 使用 Python / PHP 的预设名称列表进行命名实体识别

我正在尝试处理一个 CSV 文件,该文件在每一行中都有一个文本字段,其中包含组织名称和该组织中个人的位置作为非结构化文本。这个字段通常是一堆这样的文本:

我需要提取职位和组织名称。对于这个职位,我将 preg_match 用于针对不同职业的一系列大约 60 个不同的正则表达式,我认为它工作得很好(我的猜测是它捕获了大约 80%)。但是,我在获取组织名称时遇到了麻烦。我有一个 MySQL 表,其中包含大约 16,000 个组织名称,我可以对其执行简单的 preg_match,但由于常见的拼写错误和缩写,它只能捕获大约 30% 的组织。例如,我的数据库有

但 CSV 文件可能有任何选项:

我需要处理数十万条记录,而我无法花时间更正当前未正确处理的 70% 的记录或为每个组织苦心创建多个别名。我想做的是找出小的差异(例如小的拼写错误、连字符与空格以及常见的缩写),如果仍然找不到匹配项,则理想地识别组织名称并创建新记录为了它。

  • Python 或 PHP 中的哪些库或工具允许执行具有更广泛影响的相似性匹配?
  • Python 中的 NLTK 会发现拼写错误吗?
  • 是否可以使用 AlchemyAPI 来捕捉拼写错误的组织?到目前为止,我只能用它来捕捉拼写正确的组织
  • 由于我将一个短字符串(组织名称)与一个较长的字符串(包括名称和无关信息)进行比较,使用 PHP 的similar_text 函数有什么希望吗?

任何帮助或见解将不胜感激。

0 投票
5 回答
4259 浏览

java - 斯坦福 NER 工具包 - 小写实体识别

我是 NLP 的新手,并试图弄清楚命名实体识别器如何注释命名实体。我正在尝试使用斯坦福 NER 工具包。当我在标准更正式的数据集上使用 NER 时,其中所有命名约定都遵循以表示命名实体,例如在新闻专线或新闻博客中,NER 正确注释实体。但是,当我使用诸如 twitter 之类的非正式数据集运行 NER 时,命名实体可能未按应有的方式大写,NER 不会注释实体。我使用的分类器是一个 3-CRF 序列化分类器。谁能让我知道如何让 NER 也识别小写实体?非常感谢任何有关如何破解 NER 以及在何处进行改进的有用建议。提前感谢您的所有帮助。

0 投票
3 回答
5432 浏览

php - 如何使用 php 从文本中识别名称

我想使用 php 从文本中提取名称(名字和姓氏)。示例:我想从下面的文本中提取姓名(在本例中为 Aline Wright 和 Jesse Wright)

Aline Wright 是一名癌症幸存者、截肢者和新婚夫妇。周三晚上,她开始出现中风的迹象。

“我开始感到左臂麻木和面部下垂,”艾琳说。

“在我看来,我可能中风了。”

就在那时,她结婚四天的丈夫杰西·赖特(Jesse Wright)把她放在车里,把她送到了厄兰格医疗中心。赖特知道紧急情况。他是 Erlanger 的一名技术护士。

0 投票
2 回答
1267 浏览

nlp - NER 是共指解决所必需的吗?

...或者性别信息是否足够?更具体地说,我很想知道我是否可以减少斯坦福核心 NLP 加载的模型数量以提取共指。我对实际的命名实体识别不感兴趣。

谢谢

0 投票
1 回答
662 浏览

nlp - 了解 OpenCalais 的相关性分数

我试图了解 opencalais 返回的与每个实体相关联的相关性分数是多少?它意味着什么以及如何解释它?我将感谢您对此的见解。

0 投票
2 回答
2219 浏览

python - 使用 Python 从个人地名簿中识别命名实体

我尝试使用 NLTK 在 python 中进行命名实体识别。我想提取个人技能列表。我有技能列表,想在申请中搜索它们并标记技能。我注意到 NLTK 有用于预定义标签(如 Person、Location 等)的 NER 标记。我可以使用 Python 中的外部地名词典标记器吗?知道如何比搜索术语(有时是多词术语)更复杂吗?

谢谢, 阿萨夫

0 投票
2 回答
283 浏览

perl - 如何循环多个文件,保留基本名称以供进一步处理?

我有多个需要标记的文本文件,POS 和 NER。我正在使用C&C标记器并运行了他们的教程,但我想知道是否有一种方法可以标记多个文件而不是一个一个地标记。

目前我正在标记文件:

如下,然后是词性标记:

最后是命名实体识别:

我不确定如何创建一个循环来执行此操作并保持文件名与输入相同,但扩展名表示它具有的标记。我正在考虑使用 bash 脚本或 Perl 来打开目录,但我不确定如何输入 C&C 命令以使脚本能够理解。

目前我正在手动操作,至少可以说非常耗时!

0 投票
1 回答
281 浏览

named-entity-recognition - 关于隐马尔可夫模型和条件随机场的问题

我一直在研究 Hidden Markov Models and Conditional Random Fields 用于命名实体识别的任务,我似乎停留在一个基本概念上,也就是说:学习过程的目标是从训练数据中计算 argmax ,并将该 argmax 序列应用于测试数据的所有实例?

考虑这个隐马尔可夫模型示例:我有两个状态 {1,0},其中 1 是实体,0 是任何其他词。为简单起见,我现在还不关心实体分类,而只是实体检测。

我的训练数据如下:

奥巴马住在华盛顿 1 0 0 1

iPad很棒 0 1 0 0

史蒂夫乔布斯病了 1 1 0 0

现在遵循 argmax 规则,其中:

P(状态 1 到状态 1) = 1/9

P(状态 1 到状态 0)= 1 - 1/9

P(状态 0 到状态 0)= 3/9

P(状态 0 到状态 1)= 1 - 3/9

在计算出 V 和 U 矩阵后,我发现:

从训练数据中提取的最佳标签序列 = 1 1 0 0

现在考虑测试语句:

iPhone很棒

我是否只是将测试语句应用于 1 1 0 0,这实际上会起作用,但如果我有另一个测试语句,例如“Sony 的发言人被解雇”,你可以看到序列 1 1 0 0 将完全没用对于那句话。

总结一下:训练的目的是提取一个最佳标签序列并将其应用于所有测试句子吗?这似乎不太可能!我错过了什么??

0 投票
1 回答
457 浏览

javascript - 使用 Google Geocoding API 将命名实体识别标记文件链接到 Google 地图

我有使用 NER 标记的文本文件,我需要将它们链接到 Google 地图。

虽然位置没有正确标记,即。都柏林被标记为一个人,我想使用谷歌地理编码 API 来输入被识别为 NER 标记的位置并找到该位置!

这可能吗?

我正在考虑创建一个正则表达式来提取任何标记为位置、组织或人员的信息,并将其提供给 Google,看看它是否具有与之对应的纬度和经度坐标。或者取一行中标记为 NER 的 2-3 个单词并将它们添加为整个地址。

我只是不确定我实际上是如何将这些信息提供给谷歌的!?

然后,我将使用 Json 响应,使用 Google Geocoder 匹配的地址将文本文件链接到地图。

任何见解或想法将不胜感激!谢谢

0 投票
1 回答
2276 浏览

nltk - 使用 NLTK 的命名实体识别。提取关键字的相关性

我正在检查 NLTK 的命名实体识别功能。是否可以找出提取的关键字与原文最相关?另外,是否可以知道提取的关键字的类型(个人/组织)?