问题标签 [named-entity-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
175 浏览

python - 在微调 Layoutlm 时过度拟合小数据集。建议使用哪些正则化技术?

我目前正在使用 huggingface 包来训练我的 layoutlm 模型。但是,我正在经历对令牌分类任务的过度拟合。我的数据集仅包含 400 个文档。我知道这是非常小的数据集,但我没有其他机会收集更多数据。

我的结果在下表中。我已经尝试过weight_decay=0.1,我认为这是一个很高的数字,并且还尝试过根据 f1 分数和损失分别提前停止,但它们没有奏效。 在此处输入图像描述

我应该额外尝试哪些正则化技术?您是否有任何解决方案来过度拟合具有类 BERT 模型的小型数据集?

0 投票
1 回答
97 浏览

android - 如何使用 Google MLkit 训练自定义实体提取模型?

我想用 google mlkit 训练一个自定义实体提取模型,并在 android 和 ios 平台上使用它。我怎样才能做到这一点?

0 投票
0 回答
52 浏览

machine-learning - AutoML 和文本实体提取问题 - 每个文档类型 1 个模型或所有文档类型 1 个模型

我希望使用 Google AutoML 为几种不同类型的文档构建自定义实体提取模型。对于大多数意图和目的,我有 2 种文件类型,文件要么说一个人欠钱,要么文件说一个人已经还清,不再欠钱。

例如 Bob 欠 Larry 400 美元(文档类型 1)

例如,Bob 免除了他的债务(文档类型 2)

我需要的每种文档类型都有稍微不同的实体,但有一些重叠的实体(例如,在这个例子中,借款人和欠款是重叠的实体)。

我的问题是……有 2 个模型更好吗?一个模型在类型 1 文档上训练,另一个模型在类型 2 文档上训练。还是做 1 个在所有文档上训练的模型更好。我知道每个文档是什么类型,并且当我需要进行预测时,我将始终拥有该信息。另请注意,这些文件没有标准格式(浏览来自 1000 名律师的 1000 份法律文件,您会发现它们的组织方式各不相同,即使它们包含相同的信息)。

提前致谢,

杰夫

0 投票
2 回答
245 浏览

rasa-x - 需要一个“文本”参数来解析小鸭 rasa x

我正在尝试在本地运行小鸭。所以在这篇文章的帮助下,我安装了堆栈,然后

克隆小鸭代码

下载 zoneinfo 并更新exe/ExampleMain.hs中的参考

使用构建

然后使用

现在,如果我在邮递员中使用请求类型 POST 和以下内容点击http://localhost:8000/parse

表明422 bad input

如果我再次点击相同的请求,它会显示200 OK

有什么帮助吗?

0 投票
1 回答
102 浏览

dialogflow-es - 在 Dialogflow 中,如何处理具有相同参考值的多个实体?

我有 2 个实体实体 A 和实体 B。实体 A 有一个名为 Walmart 的参考值,而实体 B 也有一个名为 Walmart 的参考值。现在,当用户输入“向我展示 Walmart 的销售额”时,我希望机器人仅向我提供实体 B 下列出的 Walmart 的销售额。我怎样才能让机器人明白这一点?机器人有没有办法返回一个提示,询问我想看哪两个?感谢帮助

0 投票
1 回答
32 浏览

python - 歌词的NER模型[说唱]

我正在寻找任何 NER 模型训练来从说唱歌词中提取实体。目前我正在为 NER 使用 Spacy 模型,但有很多错误分类。这是因为 spacy 模型是对报纸文章进行预训练的。所以,最初的问题;有没有什么模型可以用于说唱歌词的 NER。

这就是当前的 spacy 模型对某些单词进行分类的方式

('kanye west', 'GPE'),('2pac', 'PRODUCT'),('hoochie coochie', 'ORG'),('valley', 'LOC'),('talkin', 'NORP' ),('没什么', 'PERSON'),('100k', '产品')

(如果你想知道这些是什么歌词,这些来自 Kendrick Lamar)

0 投票
0 回答
14 浏览

nlp - 如何从相似的句子中将自定义意图和实体提取为通用格式?

我是 NLP 的新手。我想构建一个自定义意图/实体提取。下面给出了我想要实现的示例:

输入文本'x 大于或等于 20'。预期输出 x>=20

输入文本 'y 等于或大于 30' 预期输出 y>=30

输入文本 'z is > or equal to 40' 预期输出 z>=40

输入 'ab>=50' 预期输出 ab>=50

非常感谢任何指导

0 投票
1 回答
26 浏览

spacy - 在 entity_ruler 中引用其他实体

我正在尝试使用 entity_ruler 构建“命名实体”的自定义列表,同时遵循API

但是我面临一个问题:我可以构建一个命名实体来引用另一个也在 entity_ruler 中定义的实体吗?

举个例子,假设我想将实体构建Agreement为一些固定的表达式,并将实体构建AgreementDate为一个Agreement后跟另一个表达式:下面的片段可以正确设置 spacy 吗?因为输出不是我所期望的。

0 投票
1 回答
136 浏览

rasa - Rasa`RegexEntityExtractor`将非实体提取为实体

我试图从输入中提取用户名。这是相关的训练数据(我没有提供完整的数据,因为这会使问题变得臃肿):

在这里,由于我使用的是正则表达式,我必须RegexEntityExtractor为我的管道添加。但是在添加它之后,即使是“hi”作为输入也被视为实体名称。这是 rasa 交互式会话的示例:

像这样,对于我提供的任何单词,它都将其标记为 entity name。我想这是因为,RegexEntityExtractor在提取实体时没有考虑意图。如何解决这个问题?

0 投票
1 回答
28 浏览

python - 提取 SpaCy DATE 实体并添加到新的 pandas 列

我有一系列社交媒体评论,我想根据他们对日期的引用来探索这些评论。为此,我使用 SpaCy 的命名实体识别器来搜索DATE实体。df_test我在该列下调用的 pandas 数据框中有评论comment。我想dates在这个数据框中添加一个新列,其中包含在每个评论中找到的所有日期实体。有些评论不会有任何日期实体,在这种情况下None应该在此处添加。例如:

应该:

基于他们是否可以添加在新列中找到的新 NER 标记?我尝试了一种列表方法:

但是,这会产生一个比原始数据框更长的列,例如:

这不起作用,因为日期条目不再与其相应的注释匹配。我知道这是因为我在所有实体中循环,但我不知道如何解决这个问题。有没有办法解决这个问题,以便我可以提取所有日期实体并以某种方式将它们连接到它们被发现的评论,以便以后分析?任何帮助深表感谢!