问题标签 [named-entity-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将 ner 结果存储在 json/ 数据库中
我从上面的代码中得到了这个输出:
('PERSON', 'Rami Eid')
('ORGANIZATION', 'Stony Brook University')
('LOCATION', 'NY')
('PERSON', 'GuruRaj Bagali')
('ORGANIZATION', 'Christ University')
但我希望它应该是像具有组织和位置的人这样的地图,我想以 json 格式存储它。
nlp - 从文本中提取产品属性/特征
我被分配了一项从产品描述中提取特征/属性的任务。
我需要能够提取出诸如“牛仔裤”和“修身版”或“购物袋”和“粉红色”和“金色”之类的属性。产品描述列表不仅仅是衣服,它们基本上可以是任何东西。
我不知道如何解决这个问题。我尝试实现命名实体识别器解决方案以及 POS 实现,NER 实现无法识别任何标记,并且大多数标记在他的 POS 解决方案中显示为 NNP(专有名词),这对我没有多大帮助。我需要一种能够区分品牌名称和产品功能的方法(例如,如果它是 T 恤、颜色或设计(圆领、V 领)等)。
我确实实施了一个 KMean 解决方案,该解决方案将类似产品聚集在一起,但话又说回来,这不是我想要的结果。
只是想找人指引我正确的方向。
java - NLP使用java从文本中提取类别
如何在实体和类别(来自列表或分类)中对从文本(使用 NLP/NLTK 或 Textblob)中提取的单词进行分类?
我将有关键字数据库,我想从文本中逐行提取匹配的关键字。
例如下面的文本文件
日期、说明、入款 (€)、出款 (€)
1) 2016 年 3 月 3 日,CNC CNCWORD1 CNCWORD2 P 01/03 3, , 2.95
2) 16 年 3 月 3 日 POS POSWORD1 CNCWORD2 01/03 0, , 20
3) 2016 年 3 月 2 日 CNC CNCWORD3 28/02, , 1.604) 2-Mar-16 POS POSWORD3 POSWORD4 29/02 17, ,102.3
和关键字数据库
{CNC CNCWORD1,CNCWORD3,POS POSWORD1 CNCWORD2,POS POSWORD3}
从每一行使用 NLP 获得可能的匹配关键字
对于上面的例子,我们将有:
1) CNC CNCWORD1 2) POS POSWORD1 CNCWORD2 3) CNCWORD3 4) POS POSWORD3
c# - 如何使用 c# 中的 elasticsearch-entity-resolution 插件
我是弹性搜索的新手。我需要在我的 ES 中实现实体提取。我计划使用插件 elasticsearch-entity-resolution(duke's)。如何在我的 c# 代码中使用它。有人可以帮忙吗?
java - Exact Dictionary based Named Entity Recognition with Stanford
I have a dictionary of named entities, extracted from Wikipedia. I want to use it as the dictionary of an NER. I wanted to know how can I use Stanford-NER with this data of mine. I have also downloaded Lingpipe, although I have no idea how can I use it. I would appreciate all kinds of information.
Thanks for your helps.
nlp - 自定义命名实体提取
我正在尝试使用 stanford NLP 实现 NER(命名实体提取)。最终目标是将自由文本转换为查询格式。我创建了一个自定义字典,并且能够提取实体并构建查询
我将建立查询
但是当声明被否定时问题就来了
非纽约人
如何从这个陈述中提取负面情景,即使在斯坦福 NLP 之外,还有什么方法可能吗?
任何帮助表示赞赏
ontology - 您如何找到文本所涉及的 wikidata(或 freebase 或 DBpedia)主题列表?
我正在寻找一种解决方案来提取文本(或 html)文档所涉及的概念列表。我希望这些概念成为 wikidata 主题(或 freebase 或 DBpedia)。
例如“ Bad is a song by Mikael Jackson ”应该返回 Michael Jackson(艺术家,wikidata Q2831)和 Bad(歌曲,wikidata Q275422)。如本例所示,系统应对拼写错误 (Mikael) 和歧义 (Bad) 具有鲁棒性。
理想情况下,系统应该跨多种语言工作,它应该适用于短文本和长文本,并且当它不确定时它应该返回多个主题(例如,糟糕的歌曲 + 糟糕的专辑)。此外,理想情况下,它应该是开源的并具有 python API。
是的,这听起来像是给圣诞老人的清单。有任何想法吗?
编辑
我检查了一些解决方案,但到目前为止还没有灵丹妙药。
- NLTK 解析文本并提取“命名实体”(AFAIU,指代名称的句子的一部分),但它不返回 Wikidata 主题,只是纯文本。这意味着它可能不会理解“ I shot the sheriff ”是 Bob Marley 的一首歌曲的名称,而是将其视为一个句子。
- OpenNLP 的作用大致相同。
- Wikidata 有一个搜索 API,但它一次只有一个词,而且它不处理歧义。
- 有一些商业服务(OpenCalais、AlchemyAPI、CogitoAPI ......)但没有一个真正闪耀,恕我直言。
stanford-nlp - 斯坦福 NER 推文培训
我正在尝试在推文上训练我自己的模型,在我的模型中,我关心主题标签中的 NE。但是,我想不出一种方法可以让该工具真正学习数据中的这种模式。这是 OpenNLP 的示例训练记录:
现在,如果我按照此链接为斯坦福 NER 准备相同的文本:
这样可以吗?我们如何使它适用于字符级别而不是仅用于令牌级别?你认为 CRF 模块会学习这样的模式吗?还是我们应该忽略主题标签?
提前致谢。
-H
tags - 标记和训练 NER 数据集
我有一个数据集,我想将其标记为命名实体识别。我的数据集是波斯语的。我想知道我应该如何标记表达式,例如:
*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。>>>(带有标题的名称)我应该将所有人标记为一个人还是只标记名字和姓氏?(我的意思是我也应该标记“先生”)
先生 >> b_per || 先生 >> o
迈赫迪 >> i_per || 迈赫迪 >> b_per
风见 >> i_per || 风见 >> i_per
*** بیمارستان نور = Noor 医院 >>> 我应该只标记名称还是将名称和医院都标记为命名实体?
*** 埃菲尔铁塔/国防部(我的意思是美国国防部)>>> 在波斯语中它被称为:وزارت دفاع(vezarate defa)我应该只标记防御吗?还是一起?
还有更多关于学校、电影、城市、国家和......的例子,因为我们在命名实体之前使用实体类。
如果您能帮我标记这个数据集,我将不胜感激。
python - 使用 Vowpal Wabbit 的命名实体识别似乎可以记住训练数据
我正在使用 Vowpal Wabbit 的 python API 来训练命名实体识别分类器,以从短句中检测人名、组织和位置的名称。我整理了一个IPython Notebook,其中包含有关数据的详细信息、模型的训练方式以及评估语句中识别的实体。训练数据来自ATIS和CONLL 2003数据集。
我的 Vowpal Wabbit SearchTask 类的设置(基于本教程):
模型训练:
该模型在训练数据中存在的命名实体(精确字符串匹配)上表现良好,但对使用相同结构的新示例的泛化能力很差。也就是说,分类器将从训练数据中识别句子中存在的实体,但是当我只更改名称时,它们的效果很差。
运行分类器时的输出:
这表明即使句子保持不变:' a
to b
on sunday下午',模型也无法识别新位置,可能是因为它已经记住了训练示例?
organisation
和person
分类器也有类似的结果。这些可以在我的Github中找到。
我的问题是——
- 我在这里做错了什么?
- 我可以改变模型的其他参数吗?还是我可以更好地使用现有的,例如
ring_size
andsearch_task
? - 您有什么建议可以提高模型的通用性吗?