“named-entity-extraction”的相关标签问题

0 投票

2 回答

620 浏览

python - 如何将 ner 结果存储在 json/ 数据库中

我从上面的代码中得到了这个输出：

('PERSON', 'Rami Eid')
('ORGANIZATION', 'Stony Brook University')
('LOCATION', 'NY')
('PERSON', 'GuruRaj Bagali')
('ORGANIZATION', 'Christ University')

但我希望它应该是像具有组织和位置的人这样的地图，我想以 json 格式存储它。

2016-02-03T09:27:42.990

0 投票

2 回答

1548 浏览

nlp - 从文本中提取产品属性/特征

我被分配了一项从产品描述中提取特征/属性的任务。

我需要能够提取出诸如“牛仔裤”和“修身版”或“购物袋”和“粉红色”和“金色”之类的属性。产品描述列表不仅仅是衣服，它们基本上可以是任何东西。

我不知道如何解决这个问题。我尝试实现命名实体识别器解决方案以及 POS 实现，NER 实现无法识别任何标记，并且大多数标记在他的 POS 解决方案中显示为 NNP（专有名词），这对我没有多大帮助。我需要一种能够区分品牌名称和产品功能的方法（例如，如果它是 T 恤、颜色或设计（圆领、V 领）等）。

我确实实施了一个 KMean 解决方案，该解决方案将类似产品聚集在一起，但话又说回来，这不是我想要的结果。

只是想找人指引我正确的方向。

nlp feature-extraction named-entity-recognition named-entity-extraction

2016-03-16T05:31:39.153

0 投票

0 回答

284 浏览

java - NLP使用java从文本中提取类别

如何在实体和类别（来自列表或分类）中对从文本（使用 NLP/NLTK 或 Textblob）中提取的单词进行分类？

我将有关键字数据库，我想从文本中逐行提取匹配的关键字。

例如下面的文本文件

日期、说明、入款 (€)、出款 (€)
1) 2016 年 3 月 3 日，CNC CNCWORD1 CNCWORD2 P 01/03 3, , 2.95
2) 16 年 3 月 3 日 POS POSWORD1 CNCWORD2 01/03 0, , 20
3) 2016 年 3 月 2 日 CNC CNCWORD3 28/02, , 1.60

4) 2-Mar-16 POS POSWORD3 POSWORD4 29/02 17, ,102.3

和关键字数据库

{CNC CNCWORD1，CNCWORD3，POS POSWORD1 CNCWORD2，POS POSWORD3}

从每一行使用 NLP 获得可能的匹配关键字

对于上面的例子，我们将有：

1) CNC CNCWORD1 2) POS POSWORD1 CNCWORD2 3) CNCWORD3 4) POS POSWORD3

java text nlp named-entity-extraction

2016-05-23T18:00:05.870

0 投票

0 回答

162 浏览

c# - 如何使用 c# 中的 elasticsearch-entity-resolution 插件

我是弹性搜索的新手。我需要在我的 ES 中实现实体提取。我计划使用插件 elasticsearch-entity-resolution(duke's)。如何在我的 c# 代码中使用它。有人可以帮忙吗？

c#elasticsearch elasticsearch-plugin named-entity-extraction

2016-06-02T04:08:03.737

0 投票

3 回答

2161 浏览

java - Exact Dictionary based Named Entity Recognition with Stanford

I have a dictionary of named entities, extracted from Wikipedia. I want to use it as the dictionary of an NER. I wanted to know how can I use Stanford-NER with this data of mine. I have also downloaded Lingpipe, although I have no idea how can I use it. I would appreciate all kinds of information.

Thanks for your helps.

java stanford-nlp named-entity-recognition named-entity-extraction lingpipe

2016-06-11T11:54:27.537

0 投票

2 回答

1077 浏览

nlp - 自定义命名实体提取

我正在尝试使用 stanford NLP 实现 NER（命名实体提取）。最终目标是将自由文本转换为查询格式。我创建了一个自定义字典，并且能够提取实体并构建查询

我将建立查询

但是当声明被否定时问题就来了

非纽约人

如何从这个陈述中提取负面情景，即使在斯坦福 NLP 之外，还有什么方法可能吗？

任何帮助表示赞赏

nlp stanford-nlp opennlp named-entity-extraction

2016-09-14T08:33:03.600

0 投票

1 回答

826 浏览

ontology - 您如何找到文本所涉及的 wikidata（或 freebase 或 DBpedia）主题列表？

我正在寻找一种解决方案来提取文本（或 html）文档所涉及的概念列表。我希望这些概念成为 wikidata 主题（或 freebase 或 DBpedia）。

例如“ Bad is a song by Mikael Jackson ”应该返回 Michael Jackson（艺术家，wikidata Q2831）和 Bad（歌曲，wikidata Q275422）。如本例所示，系统应对拼写错误 (Mikael) 和歧义 (Bad) 具有鲁棒性。

理想情况下，系统应该跨多种语言工作，它应该适用于短文本和长文本，并且当它不确定时它应该返回多个主题（例如，糟糕的歌曲 + 糟糕的专辑）。此外，理想情况下，它应该是开源的并具有 python API。

是的，这听起来像是给圣诞老人的清单。有任何想法吗？

编辑

我检查了一些解决方案，但到目前为止还没有灵丹妙药。

NLTK 解析文本并提取“命名实体”（AFAIU，指代名称的句子的一部分），但它不返回 Wikidata 主题，只是纯文本。这意味着它可能不会理解“ I shot the sheriff ”是 Bob Marley 的一首歌曲的名称，而是将其视为一个句子。
OpenNLP 的作用大致相同。
Wikidata 有一个搜索 API，但它一次只有一个词，而且它不处理歧义。
有一些商业服务（OpenCalais、AlchemyAPI、CogitoAPI ......）但没有一个真正闪耀，恕我直言。

ontology text-mining wikidata named-entity-extraction

2016-11-08T16:59:16.817

0 投票

0 回答

190 浏览

stanford-nlp - 斯坦福 NER 推文培训

我正在尝试在推文上训练我自己的模型，在我的模型中，我关心主题标签中的 NE。但是，我想不出一种方法可以让该工具真正学习数据中的这种模式。这是 OpenNLP 的示例训练记录：

现在，如果我按照此链接为斯坦福 NER 准备相同的文本：

这样可以吗？我们如何使它适用于字符级别而不是仅用于令牌级别？你认为 CRF 模块会学习这样的模式吗？还是我们应该忽略主题标签？

提前致谢。

-H

stanford-nlp opennlp tweets named-entity-recognition named-entity-extraction

2016-11-28T05:37:22.917

0 投票

3 回答

778 浏览

tags - 标记和训练 NER 数据集

我有一个数据集，我想将其标记为命名实体识别。我的数据集是波斯语的。我想知道我应该如何标记表达式，例如：

*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。>>>（带有标题的名称）我应该将所有人标记为一个人还是只标记名字和姓氏？（我的意思是我也应该标记“先生”）

先生 >> b_per || 先生 >> o

迈赫迪 >> i_per || 迈赫迪 >> b_per

风见 >> i_per || 风见 >> i_per

*** بیمارستان نور = Noor 医院 >>> 我应该只标记名称还是将名称和医院都标记为命名实体？

*** 埃菲尔铁塔/国防部（我的意思是美国国防部）>>> 在波斯语中它被称为：وزارت دفاع（vezarate defa）我应该只标记防御吗？还是一起？

还有更多关于学校、电影、城市、国家和......的例子，因为我们在命名实体之前使用实体类。

如果您能帮我标记这个数据集，我将不胜感激。

tags nlp stanford-nlp named-entity-recognition named-entity-extraction

2017-03-28T12:42:34.010

0 投票

1 回答

582 浏览

python - 使用 Vowpal Wabbit 的命名实体识别似乎可以记住训练数据

我正在使用 Vowpal Wabbit 的 python API 来训练命名实体识别分类器，以从短句中检测人名、组织和位置的名称。我整理了一个IPython Notebook，其中包含有关数据的详细信息、模型的训练方式以及评估语句中识别的实体。训练数据来自ATIS和CONLL 2003数据集。

我的 Vowpal Wabbit SearchTask 类的设置（基于本教程）：

模型训练：

该模型在训练数据中存在的命名实体（精确字符串匹配）上表现良好，但对使用相同结构的新示例的泛化能力很差。也就是说，分类器将从训练数据中识别句子中存在的实体，但是当我只更改名称时，它们的效果很差。

运行分类器时的输出：

这表明即使句子保持不变：' ato bon sunday下午'，模型也无法识别新位置，可能是因为它已经记住了训练示例？

organisation和person分类器也有类似的结果。这些可以在我的Github中找到。

我的问题是——

我在这里做错了什么？
我可以改变模型的其他参数吗？还是我可以更好地使用现有的，例如ring_sizeand search_task？
您有什么建议可以提高模型的通用性吗？

python named-entity-recognition vowpalwabbit named-entity-extraction

2017-04-19T08:31:13.320

问题标签 [named-entity-extraction]

Reference