问题标签 [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 地理标记或地理标签文本内容的方法
有哪些好的算法可以用城市/地区或原产地自动标记文本?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述。是否有任何包装/文件声称可以肯定地做到这一点?
我已经研究了一些基于 tfidf 的方法、专有名词交集,但到目前为止,还没有取得惊人的成功,我会很感激想法!
给定一些主题列表,更一般的问题是关于将文本分配给主题。
简单/天真的方法更喜欢完全使用贝叶斯方法,但我很开放。
java - Java 的命名实体识别库
我正在为 java 寻找一个简单但“足够好”的命名实体识别库(和字典),我正在寻找处理电子邮件和文档并提取一些“基本信息”,例如:姓名、地点、地址和日期
我一直在环顾四周,大多数似乎都偏重于 NLP 类项目。
有什么建议吗?
algorithm - 识别网页物理地址的算法
识别 HTML 页面上的结构化数据的最佳算法是什么?
例如,Google 会识别电子邮件中的家庭/公司地址,并提供该地址的地图。
nlp - 在 NLP 中识别专有名词的策略
我有兴趣了解有关自然语言处理(NLP) 的更多信息,并且很好奇目前是否有任何策略可以识别文本中不基于字典识别的专有名词?另外,任何人都可以解释或链接到解释当前基于字典的方法的资源吗?谁是 NLP 的权威专家,或者该主题的权威资源是什么?
php - 命名实体识别算法
我想使用命名实体识别 (NER) 在数据库中为文本找到足够的标签。
我知道有一篇关于此的 Wikipedia 文章和许多描述 NER 的其他页面,我希望从您那里听到有关此主题的一些信息:
- 您对各种算法有何经验?
- 你会推荐哪种算法?
- 哪种算法最容易实现(PHP/Python)?
- 算法如何工作?是否需要手动培训?
例子:
“去年,我在伦敦见到了巴拉克奥巴马。” => 标签:伦敦,巴拉克奥巴马
我希望你能帮助我。非常感谢您!
java - 如何在文本中定义人名(Java)
我有一些输入文本,其中包含一个或多个人名。我没有这些名字的字典。哪个 Java 库可以帮助我从输入文本中定义名称?我浏览了 OpenNLP,但没有找到任何示例或指南,或者至少没有找到关于如何将其应用到我的代码中的描述。(我看到了 javadoc,但对于这样的项目来说,它的文档很差。)
我想从一些随机文本中查找名称。如果输入文本是“我的朋友 Joe Smith 去商店了。”,那么我想得到“Joe Smith”。我认为智能引擎上应该有一些足够大的字典,基于较小的字典,可以理解人名。
metadata - 使用条件随机字段进行命名实体识别
什么是条件随机场?条件随机字段究竟如何将专有名称识别为结构化或非结构化文本中的人、组织或地点?
例如:此产品由 StackOverFlow Inc. 订购。
条件随机场如何将 StackOverFlow Inc. 识别为一个组织?
named-entity-recognition - 实体提取 Web 服务
是否有任何付费或免费的命名实体识别网络服务可用。
基本上我正在寻找一些东西 - 如果我传递如下文本:
“约翰在汉堡王吃薯条”
它应该被识别 - 类似的东西:
人:约翰
组织:汉堡王
我从 GATE 听说过Annie - 但我认为它没有可用的网络服务。
java - 在 Java 中消除命名实体的歧义
我有一个字符串列表(在本例中为公司名称)和一个 Java 程序,该程序从大部分非结构化文本中提取看起来像公司名称的事物列表。我需要将提取文本的每个元素与列表中的字符串进行匹配。警告:非结构化文本有错别字,例如“Blah, Inc.”。被称为“Blah”等。我尝试过 Levenshtein Edit Distance,但由于可预见的原因失败了。是否有解决此问题的已知最佳实践方法?还是我回到手动数据输入?
nltk - 用于命名实体识别的免费标记语料库
我正在寻找一个免费的标记语料库,用于训练命名实体识别的系统。我发现的大多数(比如纽约时报)都很贵而且不开放。任何人都可以帮忙吗?