问题标签 [named-entity-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
named-entity-recognition - 实体提取 Web 服务
是否有任何付费或免费的命名实体识别网络服务可用。
基本上我正在寻找一些东西 - 如果我传递如下文本:
“约翰在汉堡王吃薯条”
它应该被识别 - 类似的东西:
人:约翰
组织:汉堡王
我从 GATE 听说过Annie - 但我认为它没有可用的网络服务。
rdf - 文本中实体引用的 rdf 表示
考虑这样一个句子:
约翰史密斯前往华盛顿。
姓名标注员会在天气好的时候将“John Smith”识别为一个人,将“Washington”识别为一个地方。然而,如果没有其他证据,它无法判断世界上所有可能的“约翰·史密斯”中的哪一个,甚至是各种“华盛顿”中的哪一个。
最终,一些解决过程可能会根据其他证据做出决定。然而,在此之前,在 RDF 中表示这些引用的良好做法是什么?在某个命名空间中为它们分配组成的唯一标识符?制作空白元组(例如,“文档 d 中引用了某个名叫 John Smith 的人”。)?其他的选择?我的一本书给出了一个涉及匿名气象站的例子,但我并没有完全理解他们的例子是如何与其他关于 RDF 的描述相适应的。
lucene - 如何在 Lucene 中进行实体提取
我正在尝试在 Lucene 中进行实体提取(更像是匹配)。这是一个示例工作流程:
给定一些文本(来自 URL)和人名列表,尝试从文本中提取人名。
笔记:
人名没有完全规范化。例如,有些是 X 先生、Y 夫人,有些只是 John Doe、X 和 Y。要考虑的其他前缀和后缀是 Jr.、Sr.、Dr.、I、II 等(别让我开始使用非美国名称)。
我正在使用 Lucene MemoryIndex从每个 Url(剥离 html 标记)创建文本的内存索引,并使用 StandardAnalyzer 查询所有名称的列表,一次一个(100k 个名称,还有其他方法吗?这个?平均而言,这大约需要 8 秒。在我拥有的平均文本上)。
一个主要问题是,为了消除噪音,我使用 0.01 作为基础分数,如果文本包含“John Doe”并且在许多案例都没有达到 0.01 的阈值。
另一个问题是,如果我规范化所有名称并开始删除所有出现的 Dr. Mr. Mrs. 等,那么我会开始错过像“Dr. John Edward II”这样的好匹配,并最终得到很多像“Mr. . 约翰·爱德华”。
我知道 Lucene 可能也不是适合这项工作的工具,但到目前为止它还没有被证明太糟糕。任何帮助表示赞赏。
dbpedia - 如何使用 DBPedia 从内容中提取标签/关键字?
我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。
我找到了关于 DBPedia 的文章。DBpedia 是一个社区努力从维基百科中提取结构化信息并在 Web 上提供这些信息。
有人用过他们的网络服务吗?你知道它们是如何工作的以及它有多可靠吗?
nlp - 可以使用除 People、Org 和 Loc 之外的 Lingpipe 提取通用实体吗?
我已经阅读了 Lingpipe for NLP,发现我们有能力识别提到的人名、地点和组织的名称。我的问题是,如果我有一个文档训练集,其中提到了文本中的软件项目,我可以使用这个训练集来训练命名实体识别器吗?训练完成后,我应该能够将一组文本文档的测试集提供给经过训练的模型,并且我应该能够识别那里提到的软件项目。
使用 NER 可以实现这种通用 NER 吗?如果是这样,我应该使用哪些我应该提供的功能?
谢谢阿布舍克 S
nlp - 命名实体识别和解析之间的区别?
命名实体识别和命名实体解析有什么区别?希望有一个实际的例子。
regex - 从大量文本中提取数千个简单模式的快速算法
我希望能够有效地匹配 GB 文本中的数千个正则表达式,因为我知道这些正则表达式中的大多数都相当简单,例如:
等等
我目前的想法是尝试从每个正则表达式中提取某种最长的子字符串,然后使用 Aho-Corasick 匹配这些子字符串并消除大部分正则表达式,然后匹配所有剩余的正则表达式组合。谁能想到更好的东西?
annotations - 半自动注释工具 - 如何找到 RDF 三元组
我正在为医学文本开发一个半自动注释工具,我完全迷失在寻找用于注释的 RDF 三元组。
我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP,它们都没有用于提取疾病名称的模型。
我的问题是:* 如何创建一个新的 NER 模型来提取疾病名称?我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗?* 除了 NLP 之外,还有另一种方法可以从文本中提取 RDF 三元组吗?
任何帮助,将不胜感激!谢谢。
nlp - 实体提取库
我正在寻找一个进行文本分析和提取实体的库。
实体的类型/分类并不重要,重要的是确定有价值的东西。在这种情况下,实体宇宙是无限的,它不受固定字典的限制。
似乎有几个网络服务可以做到这一点(NERD 让您比较这些网络服务的结果:http: //nerd.eurecom.fr/documentation非常有用),但我正在寻找本地图书馆而不是远程托管服务。我更喜欢 Java 或 .NET,但如果它是一个好的库,我会学习它所用的任何语言。
关于类似主题的旧线程很少,我希望在这个领域找到新的发展,和/或建立在较低级别的 NLP 库之上的库:
- 在提供 Lucene 索引时使用免费工具进行实体提取/识别
- Lucene 实体提取
- 如何在 Lucene 中进行实体提取
- https://stackoverflow.com/questions/tagged/named-entity-extraction
- https://stackoverflow.com/questions/tagged/named-entity-recognition
有谁知道一个做得不错的图书馆?