问题标签 [named-entity-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
703 浏览

keras - Keras LSTM,预期为 3,但得到了形状为 [] 的数组

我正在尝试从带注释的文本中找出与单词相关的标签。我正在使用一个bidirectional LSTM. 我有X_train它的形状(1676, 39)Y_train相同的形状(1676, 39)

执行此操作时,我收到错误:

我无法找出如何提供 Keras LSTM 模型所需的适当尺寸。

0 投票
1 回答
150 浏览

python - begin_offset 设置为 -1 Google NATURAL LANGUAGE API (entity_extraction)

Google Cloud CLOUD NATURAL LANGUAGE API (entity_extraction) 为 begin_offset 返回 -1(在 nodejs 和 python 上)。我是否缺少任何参数

0 投票
1 回答
493 浏览

neural-network - Rasa NLU 实体提取使用什么模型?它是 LSTM 还是只是一个简单的神经网络?

RASA NLU 使用什么样的模型来提取词嵌入后的实体和意图?

0 投票
1 回答
65 浏览

python - 如何迭代python中的文件,其中记录是多行的,带有逗号分隔的字段,并且记录由空行分隔?

下面的数据集由句子组成,其中每个单词都被单独标记。我想把它分成两个变量来训练我的模型。记录由空行分隔,每条记录跨越多行,其中单词和标签以逗号分隔。

我想处理这个输入文件以生成预期的输出,如下所示:

X 变量必须包含每条记录的所有单词作为单独的列表:

Y 变量必须包含每条记录的标签作为单独的列表:

请建议。谢谢!

0 投票
0 回答
53 浏览

nltk - StanfordNERTagger 编译中的 UnicodeDecodeError

我正在使用 NLTK 包装器使用斯坦福 3class 模型进行 NER 标记。在用英语编写的 BBC 新闻原始文本中出现 UnicodeDecodeError。

这是我的代码

错误为

我也尝试了 utf-8、ascii 和默认编码,但它并没有解决我的问题。

文本数据包含以下句子:

我正在使用 Anaconda python 2.7

0 投票
1 回答
956 浏览

nlp - 如何识别作为光学字符识别 (OCR) 输出的文本中的实体?

我正在尝试使用文本数据进行多类分类。我面临的问题是我有非结构化的文本数据。我会用一个例子来解释这个问题。以这张图片为例:

示例数据

我想提取和分类图像中给出的文本信息。问题是当我提取信息时,OCR 引擎会给出如下输出:

现在这里的目标类是:

我面临的问题是输入文本不可分离,这​​意味着“多行可以属于同一个类”,并且可能存在“单行可以有多个类”的情况。

所以我不知道如何在将行传递给分类模型之前拆分/合并行。
有什么方法可以使用 NLP 我可以根据目标类拆分段落。换句话说,给定的输入段落会根据目标标签对其进行拆分。

0 投票
1 回答
567 浏览

artificial-intelligence - 如何在 RASA NLU 中定义意图独立的实体?

我在 RASA NLU 工作以提取阿拉伯语的意图和实体,我有自己的实体,例如(地点、组织和人),我想在没有任何意图的情况下添加这些实体。我只想将它们添加为实体及其类型。我怎样才能做到这一点?

0 投票
0 回答
34 浏览

nlp - 是否有一个库可以查看 RASA NLU 解释器在训练后学习的权重?

我正在使用 RASA NLU 从医疗发票中提取实体。我已经手动标记和训练 OCR 从这些发票中提取数据,包括 10 个相关实体(诊所名称、诊所地址......)。RASA 隐式地从数据中学习了几个特征。有什么办法可以看到这些特征和为这些特征学习的权重?

我已经尝试过ELI5,但它似乎不支持 rasa 解释器。

有没有人遇到过这个?提前致谢

0 投票
2 回答
1200 浏览

spacy - SpacyEntityExtractor 无法正确识别时间实体

拉萨 v - 0.15

操作系统 - Mac 操作系统

文本 - 在凌晨 3 点设置闹钟

实体=红衣主教

值 = 3

我们可以看到文本中的预期实体应该是-

实体=时间

价值 = 凌晨 3 点

为什么它显示错误的结果?

spacy 中使用的模型 - 'en_core_web_md'

我正在使用的管道是 -

language: "en" pipeline: - name: "SpacyNLP" model: "en_core_web_sm" case_sensitive: false - name: "WhitespaceTokenizer" - name: "SpacyEntityExtractor" - name: "CRFEntityExtractor" - name: "EntitySynonymMapper" - name: "CountVectorsFeaturizer" - name: "EmbeddingIntentClassifier"

0 投票
2 回答
799 浏览

nlp - RASA NLU-我想在单词之后提取任何内容(单词、数字或特殊字符)作为实体

有没有办法我们可以在一个单词之后提取任何东西作为一个实体?例如:

我想在实体之后about或之后提取go to任何内容。learn