问题标签 [spacy-3]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从 spaCy v3.0 开始,不再支持模型符号链接
我需要将 FastText 向量转换为非英语语言的 SpaCy,为此我构建并安装(pip)自定义 .tar.gz 模型。现在我想将包与 SpaCy 链接,但旧命令已被弃用 v3.0。
我尝试了以下步骤:
错误:
文档说:
不需要,不推荐使用符号链接
我有点困惑我应该如何将我的语言模型与 SpaCy 联系起来......非常感谢帮助。
spacy - 为什么我的 SpaCy v3 记分器在精度、召回率和 f1 方面返回 0?
我有以下代码(从 SpaCy v2 迁移),我想在其中计算给定模型的精度、召回率和 f1 分数:
我试图理解的奇怪事情是为什么它总是返回
我的 TEST_DATA 集与我用来训练相同模型的 TRAIN_DATA 集的形式相同。这是它的样子:
python - 使用 SpaCy DisplaCy 可视化自定义 IOB 标签
我有一个文本文件,我使用 SpaCy 创建了一个 DOC 对象:
对于这个 DOC 对象中的每个单词,我还有一个自定义 IOP 标签列表:
我想将这些标签中的每一个分配给 DOC 对象中的每个单词,并使用 DisplaCy 可视化结果(标签列表的长度等于 doc 对象的长度):
但是,我不知道如何实现这一点。当我有每个标签标签的开始和结束索引时,我已经使用了该doc.char_span
方法:
如何更改我的代码以使其与我当前的设置相匹配?
python - SpaCy DisplaCy 不检测自定义 IOB 标签
我有一个要使用 Displacy 显示的示例文本和 IOB 标签:
然而,Displacy 将文本可视化如下:
不喜欢:
如何做到这一点?
named-entity-recognition - spacy - 3.1 自定义损失函数和数据增强,用于不平衡数据的命名实体识别
如何为 spacy v3 及更高版本中的不平衡数据编写用于命名实体识别的自定义损失函数。我的数据集包含标签的不平衡数据。例如:标签 a 有 45000 个注解,标签 b 只有 4000 个注解。如何在 spacy 中进行增强和编写自定义损失函数。
python - 提高 spaCy 3 ner 的实体精度
3.1.1
我使用带有来自 spacy 的预训练模型的 spacy 版本en_core_web_md
来训练我自己的 ner 模型。
但是,CEN_SPEED
在 ner 中未检测到实体。
这是来自的数据spacy project run evaluate
所以,我的问题是如何提高CEN_SPEED
实体的精度。其他实体的精度会下降一点是可以的。
感谢任何帮助。
python - 在 Spacy v3 数据格式问题中训练 textcat_multilabel 模型
尝试将数据从 csv 转换为 DocBin 以训练具有以下块的 textcat_multilabel 组件的模型:
来自 doc.cats 的示例打印输出:
spacy train
运行CLI 命令时的完整错误消息:
运行spacy debug data
CLI 命令时的输出:
查看该输出中的标签列表,我很确定我的问题在于我格式化用于设置 doc.cats 的字典的方式,但我似乎找不到正确的格式化方法。我确定它在文档中的某个地方,但我似乎找不到它并且感觉有点傻......
python - SpaCy v3 Textcat 不通过迭代更新
我正在尝试使用 SpaCy v3 训练自定义文本分类器。然而,textcat 模型似乎并没有通过迭代进行更新。事实上损失是完全一样的。这是我的代码的培训部分:
TRAIN_DATA 是示例列表。
谢谢
python - 重新训练现有的 NER trf 模型
我正在尝试en_core_web_trf
使用一些额外的日期格式更新 DATE 实体的现有 spacy 模型。
如 spacy 的文档中所述,数据已正确格式化并转换为.spacy
文件
config.cfg 文件根据链接
训练后的模型会导致灾难性的遗忘问题:
- 以前检测到某些格式被错误分类
- 更新后的 en_core_web_trf 模型无法确定任何其他现有实体,如 PERSON、ORDINAL、LOC 等。(即使
nlp.components[5][1].labels
显示所有现有实体列表)
如何在不影响默认准确性的情况下处理此问题?
pandas - 熊猫在循环中插入并附加到新的数据帧中
我想将NER引擎的输出插入到数据帧中,如下所示
ID |
---|
1 |
2 |
我如上所述读取数据帧以获取 ID,然后使用它从路径读取,我试图创建一个 dfindex 变量以用作数据帧中的 loc,但它一直覆盖
输出 :
1
约翰的名字
母公司名
2
克里斯的名字
克拉克名称
我想将其存储到如下数据框
ID | 匹配 |
---|---|
1 | 约翰 |
1 | 母鹿 |
2 | 克里斯 |
2 | 克拉克 |