问题标签 [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 斯坦福 NER - 提取多词实体
如何在斯坦福 NER 中标记搭配?目前它标记Federal Reserve Bank of New York
为
我希望它被识别为
这可能吗?
python - Python 中 NLTK 的命名实体识别。识别网元
我需要将单词分类为它们的词性。像动词、名词、副词等。我用
输出是一棵树。例如
当访问这棵树中的元素时,我做了如下:
但是在访问命名实体时:
我得到了上述错误。
我想要的是将输出作为类似于之前的“PRP”的“NE”,所以我无法识别哪个单词是命名实体。有没有办法在 python 中使用 NLTK 来做到这一点?如果是这样,请发布命令。还是树库中有一个函数可以做到这一点?我需要节点值“NE”
nlp - 信息提取。计数提及以衡量相关性
是否可以计算一个实体在一篇文章中被提及的次数?例如
ABC Company
是世界上最大的汽车制造商之一。It
也是年产量最大的公司。It
也是仅次于XYZ公司的第二大豪华车出口商。两家ABC
公司和 XYZ 共同生产了该国汽车总产量的 n% 以上。
提到 ABC 公司 4 次。
java - OpenNLP 是否在引擎盖下使用 WordNet 进行命名实体识别
我尝试使用 SourceForge 的 OpenNLP Tools 1.5 从文本中获取命名实体。我确实在 OpenNLP 下载中找到了一个 JWNL 文件。这是否意味着 OpenNLP 反过来使用 WordNet 进行命名实体识别。(具体来说,这是否意味着名称模型文件是使用 WordNet 生成的)?
java - 离线从非结构化文本生成 RDF
Open Calais 和 Alchemy API 等服务可以从非结构化文本生成 RDF。有没有离线的工具?有没有人尝试过WebCAT或者 OpenCyc 对这样的用例有用吗?
objective-c - C/C++/Obj-C 的词性标注和命名实体识别
需要一些帮助!
我正在尝试在objective-c中编写一些需要词性标记的代码,理想情况下还需要命名实体识别。我对“自己动手”没有太大兴趣,所以我正在寻找一个体面的库来用于此目的。显然越准确越好,但我们在这里不是在谈论任何关键的东西——只要它通常非常准确就足够了。
至少暂时只有英语,但我不想自己对模型进行任何培训。因此,无论采用何种解决方案,它都必须已经建立了一个英语语言模型。
最后,它必须通过商业友好的许可证(例如 BSD/Berkeley、LGPL)提供。不能做 GPL 或任何类似的限制,但如果这是唯一的选择,我愿意为商业许可证支付少量费用。
C、C++ 或 Obj-C 代码都可以。
所以:任何熟悉可以在这里解决问题的东西的人?谢谢!!
text - 文本挖掘 - 从非结构化文本中提取波段名称
我知道这是一个普遍的、开放式的问题。我基本上是在寻求帮助来决定前进的方向,也许是在寻求一些阅读材料。
我正在研究一种进行非结构化文本挖掘的算法,并试图从该文本中提取特定的东西——乐队的名称(单个艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2 行文本)。
一些例子可能是(不是真实事件):
现在,我正在考虑尝试一个分类器,但文本似乎很小,无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为这类问题产生良好的结果(或者可能没有算法会)。
search - 从字典中的文本字符串中查找单词
您将如何解析一串自由格式的文本,以根据位置和名称的字典检测位置和名称等内容?在我的特定应用程序中,我的字典中将有数以万计的条目,所以我很确定只运行它们是不可能的。此外,有没有办法添加“模糊”匹配,以便您还可以检测x
字典单词编辑中的子字符串?如果我没记错的话,这属于自然语言处理领域,更具体地说是命名实体识别(NER);然而,我试图找到有关 NER 背后的算法和过程的信息的尝试是徒劳的。我更喜欢为此使用 Python,因为我对此最熟悉,尽管我愿意查看其他解决方案。
java - 我如何根据姓名、数字、金钱、日期等对文本中的单词进行分类?
一周前我做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做 wgat。
情况:我有很多包含 HTML 内容的下载页面。例如,其中一些可以是来自博客的文本。它们不是结构化的并且来自不同的站点。
我想要做什么:我将用空格分割所有单词,并且我想将每个单词或一组单词分类为一些预定义的项目,如姓名、数字、电话、电子邮件、网址、日期、金钱、温度等.
我所知道的:我知道/听说过有关自然语言处理、命名实体识别器、POSTagging、NayveBayesian、HMM、培训和很多分类的事情等的概念,但是有一些不同的 NLP 库具有不同的分类器和方法来做到这一点,我不知道有什么用或做什么。
我需要什么:我需要一些来自分类器、NLP 等的代码示例,它可以将每个单词从文本中单独分类,而不是整个文本。像这样的东西:
有人可以帮助我吗?我对各种 API、分类器和算法感到困惑。
java - 如何在 OpenNLP 中训练命名实体识别器标识符?
好的,我有以下代码来训练来自 OpenNLP 的 NER 标识符
我不知道我是否做错了什么,如果缺少某些东西,但分类不起作用。我假设 train.txt 是错误的。
发生的错误是所有令牌都被分类为仅一种类型。
我的 train.txt 数据类似于以下示例,但具有更多的变化和条目数量。另一件事是我每次从文本中逐字分类,而不是所有标记。
有人可以证明我做错了什么?