“named-entity-extraction”的相关标签问题

0 投票

4 回答

2378 浏览

named-entity-recognition - 实体提取 Web 服务

是否有任何付费或免费的命名实体识别网络服务可用。

基本上我正在寻找一些东西 - 如果我传递如下文本：

“约翰在汉堡王吃薯条”

它应该被识别 - 类似的东西：

人：约翰

组织：汉堡王

我从 GATE 听说过Annie - 但我认为它没有可用的网络服务。

named-entity-recognition named-entity-extraction

2010-05-21T01:55:18.233

0 投票

4 回答

298 浏览

rdf - 文本中实体引用的 rdf 表示

考虑这样一个句子：

约翰史密斯前往华盛顿。

姓名标注员会在天气好的时候将“John Smith”识别为一个人，将“Washington”识别为一个地方。然而，如果没有其他证据，它无法判断世界上所有可能的“约翰·史密斯”中的哪一个，甚至是各种“华盛顿”中的哪一个。

最终，一些解决过程可能会根据其他证据做出决定。然而，在此之前，在 RDF 中表示这些引用的良好做法是什么？在某个命名空间中为它们分配组成的唯一标识符？制作空白元组（例如，“文档 d 中引用了某个名叫 John Smith 的人”。）？其他的选择？我的一本书给出了一个涉及匿名气象站的例子，但我并没有完全理解他们的例子是如何与其他关于 RDF 的描述相适应的。

rdf named-entity-extraction

2010-07-17T17:12:21.307

0 投票

5 回答

2939 浏览

lucene - 如何在 Lucene 中进行实体提取

我正在尝试在 Lucene 中进行实体提取（更像是匹配）。这是一个示例工作流程：

给定一些文本（来自 URL）和人名列表，尝试从文本中提取人名。

笔记：

人名没有完全规范化。例如，有些是 X 先生、Y 夫人，有些只是 John Doe、X 和 Y。要考虑的其他前缀和后缀是 Jr.、Sr.、Dr.、I、II 等（别让我开始使用非美国名称）。

我正在使用 Lucene MemoryIndex从每个 Url（剥离 html 标记）创建文本的内存索引，并使用 StandardAnalyzer 查询所有名称的列表，一次一个（100k 个名称，还有其他方法吗？这个？平均而言，这大约需要 8 秒。在我拥有的平均文本上）。

一个主要问题是，为了消除噪音，我使用 0.01 作为基础分数，如果文本包含“John Doe”并且在许多案例都没有达到 0.01 的阈值。

另一个问题是，如果我规范化所有名称并开始删除所有出现的 Dr. Mr. Mrs. 等，那么我会开始错过像“Dr. John Edward II”这样的好匹配，并最终得到很多像“Mr. . 约翰·爱德华”。

我知道 Lucene 可能也不是适合这项工作的工具，但到目前为止它还没有被证明太糟糕。任何帮助表示赞赏。

lucene named-entity-extraction

2010-11-29T21:09:55.730

0 投票

2 回答

10032 浏览

dbpedia - 如何使用 DBPedia 从内容中提取标签/关键字？

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。

我找到了关于 DBPedia 的文章。DBpedia 是一个社区努力从维基百科中提取结构化信息并在 Web 上提供这些信息。

有人用过他们的网络服务吗？你知道它们是如何工作的以及它有多可靠吗？

dbpedia named-entity-extraction

2011-01-20T13:58:17.073

0 投票

2 回答

436 浏览

nlp - 可以使用除 People、Org 和 Loc 之外的 Lingpipe 提取通用实体吗？

我已经阅读了 Lingpipe for NLP，发现我们有能力识别提到的人名、地点和组织的名称。我的问题是，如果我有一个文档训练集，其中提到了文本中的软件项目，我可以使用这个训练集来训练命名实体识别器吗？训练完成后，我应该能够将一组文本文档的测试集提供给经过训练的模型，并且我应该能够识别那里提到的软件项目。

使用 NER 可以实现这种通用 NER 吗？如果是这样，我应该使用哪些我应该提供的功能？

谢谢阿布舍克 S

nlp machine-learning text-analysis named-entity-extraction

2011-09-24T09:54:00.233

0 投票

1 回答

2468 浏览

nlp - 命名实体识别和解析之间的区别？

命名实体识别和命名实体解析有什么区别？希望有一个实际的例子。

nlp named-entity-recognition named-entity-extraction

2011-12-21T11:22:14.080

0 投票

4 回答

670 浏览

regex - 从大量文本中提取数千个简单模式的快速算法

我希望能够有效地匹配 GB 文本中的数千个正则表达式，因为我知道这些正则表达式中的大多数都相当简单，例如：

等等

我目前的想法是尝试从每个正则表达式中提取某种最长的子字符串，然后使用 Aho-Corasick 匹配这些子字符串并消除大部分正则表达式，然后匹配所有剩余的正则表达式组合。谁能想到更好的东西？

regex algorithm named-entity-extraction

2012-01-02T04:40:16.587

0 投票

1 回答

1420 浏览

annotations - 半自动注释工具 - 如何找到 RDF 三元组

我正在为医学文本开发一个半自动注释工具，我完全迷失在寻找用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP，它们都没有用于提取疾病名称的模型。

我的问题是：* 如何创建一个新的 NER 模型来提取疾病名称？我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗？* 除了 NLP 之外，还有另一种方法可以从文本中提取 RDF 三元组吗？

任何帮助，将不胜感激！谢谢。

annotations rdf named-entity-recognition named-entity-extraction

2012-04-28T21:44:41.103

0 投票

0 回答

116 浏览

java - 如何从java中的查询中提取实体？

我找到了Pingar和ANNIE，但在提交查询时它们都没有对我有用。似乎他们需要整个文档来提取实体，当我删除一定数量的单词时，它会停止检测位置和人员并将它们仅分类为关键字。我只需要检测地理参考和个人姓名。

谢谢！

java information-retrieval named-entity-extraction

2012-05-29T09:09:23.590

0 投票

3 回答

2193 浏览

nlp - 实体提取库

我正在寻找一个进行文本分析和提取实体的库。

实体的类型/分类并不重要，重要的是确定有价值的东西。在这种情况下，实体宇宙是无限的，它不受固定字典的限制。

似乎有几个网络服务可以做到这一点（NERD 让您比较这些网络服务的结果：http: //nerd.eurecom.fr/documentation非常有用），但我正在寻找本地图书馆而不是远程托管服务。我更喜欢 Java 或 .NET，但如果它是一个好的库，我会学习它所用的任何语言。

关于类似主题的旧线程很少，我希望在这个领域找到新的发展，和/或建立在较低级别的 NLP 库之上的库：

有谁知道一个做得不错的图书馆？

nlp semantics named-entity-recognition named-entity-extraction

2012-12-02T03:28:59.247

问题标签 [named-entity-extraction]

Reference