问题标签 [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
322 浏览

java - 有一个实体识别器分类器算法不需要整个文本来训练数据吗?

我想识别我拥有的文本上的一些实体,我发现了很多算法(NaiveBayes、隐藏马尔可夫模型、条件随机场等),但似乎几乎所有这些都需要大量的训练数据来对实体进行分类。

我想知道是否有一些算法可以在没有训练数据中的文本的情况下识别,但可能只有代表我想要识别的数据的单词,或者可能是一些字符串模式,或者其他方式。

我唯一要避免的是必须将大量文本作为训练数据。

0 投票
1 回答
142 浏览

.net - 扩展 HTML 字符串以具有命名字符实体

.NET 类库中是否有办法对字符串进行编码,以便替换存在命名实体的任何字符以使用此命名实体?HttpUtility.HtmlEncode 似乎没有帮助:

0 投票
2 回答
1578 浏览

java - 无监督的命名实体识别 (NER),具有自定义控制词汇表,用于 Java 中的交叉链接建议

我正在寻找一个可以使用自定义控制词汇表进行命名实体识别 (NER) 的 Java 库,而无需首先标记训练数据。我在 SE 上搜索了一些,但大多数问题都相当不具体。

考虑以下用例:

  • 一位编辑在 CMS 中输入文章(约 500 字)。
  • 文本可能包含对特定域实体的引用(以纯文本形式)。例如:
    • 兴趣点的名称,如酒吧、餐馆以及社区等。
  • 存在这些实体的受控词汇表(大约 5.000 个实体)。
    • 我想象一个实体是词汇表中的一个元组
  • 完成文本后,用户应该能够保存文档。
  • 这会触发工作流通过与实体名称进行比较来根据词汇表扫描文本片段。不需要 100% 匹配:Jarao-winkler 或其他任何东西(我不熟悉算法的 NER 使用什么)的 97% 可能就足够了,我需要它是可配置的。
  • 命中返回到控制器服务器端。这反过来将 JSON 返回到包含实体的客户端,这些实体表示为对编辑器的建议交叉链接。

理想情况下,我正在寻找一个项目,该项目使用 NRE 来建议 CMS 环境中的交叉链接以进行搭载。(例如,我确定存在 wordpress 的插件)不太确定 Java 中是否存在类似的东西。

也欢迎使用受控自定义词汇表的所有其他更通用的指向 NRE 库的指针。

0 投票
1 回答
257 浏览

statistics - 自然语言处理的最大熵

谁能简单地解释在自然语言处理中使用最大熵模型是如何工作的。我需要对简单的单词和短语进行统计分析,以试图找出特定单词的可能性以及它们所指的对象或它们包含的短语。

0 投票
1 回答
2468 浏览

nlp - 命名实体识别和解析之间的区别?

命名实体识别和命名实体解析有什么区别?希望有一个实际的例子。

0 投票
1 回答
375 浏览

python - 建议短文本片段的语义标签

我有兴趣为发布简短文本片段的用户生成建议的语义标签列表(通过指向 Freebase、Wikipedia 或其他系统的链接)。我不想“理解”文本真正在说什么,甚至不想自动标记它,我只是想向用户建议他/她的帖子最可能的语义标签。我的主要目标是强制用户在语义上进行标记,因此要保持一致,而不是用模棱两可的文本字符串来书写。如果市场上有功能合理且价格合理的工具,我会使用它。我还没有找到这样的工具,所以我正在寻找自己的工具。

我的问题首先是,如果有这样的工具我没有遇到过。我看过 Zemanta、AlchemyAPI 和 OpenCalais,但似乎没有一个能提供我需要的服务。

假设我正在编写自己的代码,我会在 Python 中编写它(除非有一个真正令人信服的理由来使用其他东西)。我的第一个猜测是在 Freebase 中搜索与“实体”匹配的 n-gram,并将它们建议为标签,也许还可以搜索实体的描述以变得“更智能”。如果这被证明是不够的,我会阅读并将我的脚趾浸入本体论的水中。由于这是一个非常困难的问题,而且我认为我的应用程序不需要它的解决方案,所以我想尽可能避免真正的语义分析。

有没有人有使用语义数据库系统的经验,并且可以给我一些关于从哪里开始以及期望什么样的陷阱的指示?

0 投票
1 回答
350 浏览

text - 政治领域的命名实体识别

对于我的文本分类研究项目,我需要识别政治领域中的命名实体(使用 NER 来改进文本分类)。

我在哪里可以找到政治领域中的命名实体,以便我可以用它来训练分类器?

如果您知道政治领域以外的任何其他数据集,请告诉我。

谢谢!

0 投票
6 回答
25383 浏览

machine-learning - Apple 如何在电子邮件中查找日期、时间和地址?

在 iOS 电子邮件客户端中,当电子邮件包含日期、时间或位置时,文本会变成超链接,只需点击链接即可创建约会或查看地图。它不仅适用于英语电子邮件,也适用于其他语言。我喜欢这个功能,并想了解他们是如何做到的。

天真的方法是拥有许多正则表达式并运行它们。但是我这不会很好地扩展,并且只适用于特定的语言或日期格式等。我认为苹果必须使用机器学习的一些概念来提取实体(8:00PM、8PM、8:00、 0800、20:00、20h、20h00、2000 等)。

知道 Apple 是如何在其电子邮件客户端中如此快速地提取实体的吗?你会应用什么机器学习算法来完成这样的任务?

0 投票
2 回答
4889 浏览

nlp - 如何在自然文本中查找对日期的引用?

我想做的是解析原始自然文本并找到所有描述日期的短语。

我有一个相当大的语料库,所有对日期的引用都标记了:

我不想解释日期短语,只需找到它们。他们是约会的事实是无关紧要的(在现实生活中他们甚至不是约会,但我不想让你厌烦细节),基本上它只是一组开放式的可能值。值本身的语法可以近似为上下文无关,但是手动构建非常复杂,并且随着复杂性的增加,越来越难以避免误报。

我知道这有点遥不可及,所以我不希望存在开箱即用的解决方案,但我可以使用哪些技术或研究?

0 投票
2 回答
1036 浏览

text - 基于机器学习的领域特定命名实体识别(NER)?

我需要构建一个分类器来识别特定域中的 NE。因此,例如,如果我的域是 Hockey 或 Football,分类器应该接受该域中的 NE,但不是它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。

对于在该领域工作的人,请建议我应该如何构建这样的分类器?谢谢!