问题标签 [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6650 浏览

location - 带有 NLTK 的斯坦福命名实体识别器 (NER) 功能

这是否可能:仅使用 NLTK 获得(类似于)斯坦福命名实体识别器功能?

有什么例子吗?

特别是,我对提取文本的 LOCATION 部分感兴趣。例如,从文本

会议将于 11 月至 18 日在 22 West Westin st., South Carolina, 12345 举行

理想情况下,我想得到类似的东西

......

或者干脆

相反,我只能得到

请注意,如果我在http://nlp.stanford.edu:8080/ner/process中输入我的文本, 我得到的结果远非完美(街道号码和邮政编码仍然缺失),但至少是“st”。是 LOCATION 的一部分,南卡罗来纳州是 LOCATION 而不是一些“GPE / NNP”:?

请问我做错了什么?请问如何修复它以使用 NLTK 从某些文本中提取位置片段?

提前谢谢了!

0 投票
1 回答
1966 浏览

testing - Weka:为什么用我的测试集重新评估没有给出任何结果而不抛出错误消息?

我正在写关于用德语文本识别命名实体的硕士论文,我想将 Weka 用于机器学习部分。我是 Weka 的新手,所以我不明白为什么我没有得到结果,尽管训练过程很成功并且我得到了一个模型。

我用 J48 训练了一个模型,另一个用 NaiveBayes 训练。首先,我收到了已经在 stackoverflow 上讨论过的错误消息(训练集和测试集不兼容),但我更正了这一点。因此,当我重新评估时,我没有收到任何错误消息,并且 Weka 给出了结果,但这些结果除了零之外不包含任何其他内容:

=== 重新评估测试集 ===

用户提供的测试集关系:train-weka.filters.unsupervised.attribute.StringToNominal-R1-10,12-last 实例:未知(尚未)。渐进式阅读属性:15

=== 总结 ===

实例总数 0
忽略类未知实例 207484

=== 按等级划分的详细准确度 ===

加权平均 南 南 南 南 南 南 南

=== 混淆矩阵 ===

abcdefgh <-- 分类为

0 0 0 0 0 0 0 0 | 一个 = O

0 0 0 0 0 0 0 0 | b = I-PER

0 0 0 0 0 0 0 0 | c = I-LOC

0 0 0 0 0 0 0 0 | d = I-MISC

0 0 0 0 0 0 0 0 | e = I-ORG

0 0 0 0 0 0 0 0 | f = B-MISC

0 0 0 0 0 0 0 0 | g = B-LOC

0 0 0 0 0 0 0 0 | h = B-ORG

我的测试和训练数据只包含名义数据和数字数据,arff 文件的标题是相同的,我没有从 Weka 收到任何错误消息。因此,我不知道我在哪里做错了什么以及我必须做什么才能得到结果。我尝试使用 Weka 版本 3-6 和版本 3-7-10,但结果始终相同。

有谁知道为什么我的测试集的评估不起作用?提前致谢!

0 投票
1 回答
1160 浏览

nlp - 将斯坦福时间标记器用于大数据是否很好?

我正在为我的项目探索斯坦福时间标记器,以从文本中提取日期实体。http://nlp.stanford.edu:8080/sutime/process的演示似乎很有希望。我想了解这个库是否成熟。还有人帮助我了解这个库如何处理大数据。如果您能指导我了解其他基于 Java 的时间标记库,尤其是针对大数据需求的时间标记库,那也会很有帮助。是否有任何进行时间标记的apache项目?

我发现了一些图书馆,比如

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

0 投票
2 回答
211 浏览

nlp - 从讣告中提取死名实体 - NLP

我有一连串的广告,这些广告是从一些报纸中提取的。广告可能以如下所示的格式出现:我的任务是提取死者的姓名。

整个段落由2个广告组成。如果有超过1个这样的广告,谁能告诉我如何将这种文本分类为段落?

0 投票
0 回答
126 浏览

algorithm - 鲁棒的非语音非密集模糊子串匹配

如果您正在编写代码来模糊匹配两个字符串,例如“coca-cola”与“koca-cola”,有一些标准的方法可以做到这一点,例如

  1. 比较 Levenshtein 编辑距离 ( http://en.wikipedia.org/wiki/Levenshtein_distance )
  2. 计算每个字符串的基于语音的散列(例如双变音)并进行比较。

但是,我找不到有关为子字符串执行此操作的标准且有效方法的信息。例如,对于输入“告诉我可口可乐”(“干草堆”),您想选择公司“可口可乐”(“针”)。

您不能使用修改后的 Levenshtein 算法,因为您可能有数百万根针头(数据库中的公司),这会占用太多资源。您可能可以计算大海捞针中每个单词的语音散列并与每个针进行比较,但是语音表示也有很多限制,我想知道是否有一个完善的标准来处理这个不使用语音的问题?

我正在寻找一种简单易懂且可扩展的算法。已经发布了类似的问题,其中给出了建议的答案,例如 Bitap 算法,但就像 Levenshtein 一样,这似乎没有规模化。

0 投票
1 回答
2452 浏览

java - 如何在 OpenNLP 中阅读命名实体识别文档

我是 java 新手,我的要求是阅读文档并执行命名实体文档。对于简单的字符串,我做了以下

但是,我需要实际从文档中读取流,然后生成 XML。谁能告诉我该怎么做

谢谢

0 投票
3 回答
21803 浏览

machine-learning - 用于命名实体识别的 NLTK

我正在尝试使用 NLTK 工具包从短信中提取地点、日期和时间。我刚刚在我的机器上安装了工具包,我写了这个快速代码片段来测试它:

我假设它将识别日期(明天)和时间(晚上 9 点)。但是,令人惊讶的是,它没有意识到这一点。当我运行上面的代码时,我得到以下结果:

有人可以帮助我了解我是否遗漏了什么,或者 NLTK 还不够成熟,无法正确标记时间和日期。谢谢!

0 投票
2 回答
1697 浏览

java - 在 OpenNLP 中训练命名实体

我想为印度人的名字训练一个语料库:

我使用以下命令编译它:

但是我收到这些错误消息

我想知道两件事

  1. 上面的代码对训练是否正确,如果是,那么我如何在训练后检查结果?
  2. 警告是什么意思?
0 投票
1 回答
1351 浏览

machine-learning - 使用 ner/nlp 从文本中检测员工指定

我对 NLP 领域非常陌生,我对检测职位/职务/角色以及他们的姓名、电子邮件、电话号码等感兴趣。我尝试使用 stanford NLP 从文本中检测姓名。电子邮件和电话号码解析似乎非常简单。但是,我无法从给定文本中检测到名称。

例如,这里有一些文本示例

1)医学总监,博士。AB Ahmad,example1@example.com
姓名:Dr. AB Ahmad,电子邮件:example1@example.com

2) 副院长学术教授 S. Antony example2@example.com
姓名:Prof. S.安东尼,电子邮件:example2@example.com

3) 副院长学术和 PG-Cell & Surg。纪律居民Trg。程序,先生。Sandeep
姓名:Sandeep 先生,电子邮件:无

4) 网络总监 Robert Adams,example3@example.com,9900131213
姓名:Robert Adams,电子邮件:example3@example.com,电话:9900131213

我对任何正则表达式匹配算法都不感兴趣,因为文本的性质是不确定的。我有兴趣知道的是如何从文本中提取上述名称。任何超越斯坦福 NLP 的解决方案,如使用 nltk、lingpipe 等都可以。如果我使用的是 stanford NLP,如何使用不同的实体类型(如“POSITION”或“DESIGNATION”)构建相同的训练模型,以及如何将此模型与其他模型一起包含(我在服务器中运行 stanford NLP模式)。

0 投票
0 回答
3003 浏览

r - 使用训练数据进行命名实体识别

我的文本文件 t1.txt 包含这个

和 t2.txt 包含

我已经训练了图像显示的数据,在此处输入图像描述 但是当试图返回所需的结果时,如

我在训练人员实体后期待结果

任何帮助,为什么我没有得到预期的结果。谢谢,在这个方向上的任何帮助

已编辑

我已经从这里下载了文件en-ner-person.bin并且截止参数对我有用,我使用了这个命令

希望它有所帮助,特别感谢 Daniel Naber。