问题标签 [spacy-3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
229 浏览

python - Spacy3.0 上的自定义 NER - ValueError

我正在尝试训练 Spacy3.0 识别新的命名实体。我完全按照本文中的说明进行操作:https ://towardsdatascience.com/using-spacy-3-0-to-build-a-custom-ner-model-c9256bea098

一切正常,直到我在“ents”中添加了几个ner。

例如:-爸爸买苹果-工作正常。但是-爸爸买苹果和三星-不起作用。

我收到一个错误:“中止并保存最终的最佳模型。遇到异常:ValueError()”文件“spacy\pipeline_parser_internals\ner.pyx”,第 310 行,在 spacy.pipeline._parser_internals.ner.BiluoPushDown.set_costs ValueError

也许应该在 config.cfg 中更改某些内容,但我找不到什么。

0 投票
1 回答
152 浏览

multithreading - spacy v3.0 中的多线程

我正在尝试使用 spacy 来训练命名实体识别器,它似乎只使用一个线程。我做了一些研究,这似乎是 Cython 和 GIL 的问题,有一种方法可以更改位于“管道”方法中的线程数。我还发现了这篇非常有用的文章:https ://explosion.ai/blog/multithreading-with-cython

问题是这是为 spacy v2 和 v3.0 编写的,通过配置文件和诸如此类的东西完全改变了它们的格式。我在一台有 8 个线程的机器上使用 Linux。如何使用 spacy v3.0 成功实现多线程?

0 投票
1 回答
192 浏览

python - 在 Linux 上的 anaconda 虚拟环境中下载 spacy ray

我正在尝试为 spacy v3.0 下载 spacy ray。我想在我有 spacy v3.0 和其他依赖项的 conda 虚拟环境中执行此操作。我不知道如何下载它。我试过conda install spacy-rayconda install -c conda-forge spacy-ray。这些说没有找到这样的模块。然后我放弃并尝试了 pip install spacy-ray 但这给了我以下消息:

conda install -c conda-forge spacy[ray]安装了一个叫做 openssl 的东西。虽然没有spacy ray。

我也尝试过:(在我的环境活跃的情况下):

它说:

我将如何正确地做到这一点?

0 投票
1 回答
116 浏览

nlp - 使用 spacy 3.0 进行预训练时出错。raw_text 到底是什么?

在 Spacy 管道中预训练自定义权重会产生错误。

当我使用 jupyter notebook 运行它时:

!python -m spacy pretrain config.cfg ./output_pretrain --paths.raw_text ./data.jsonl

出现以下错误:

我的环境

  • 操作系统:Windows 10.0.19041
  • 使用的 Python 版本:3.8.8
  • 使用的 spaCy 版本:3.0.5
0 投票
2 回答
373 浏览

python - 在 spacy v3 中训练 NER 需要在命令行中使用 dev.spacy

我正在尝试在 spacy v3 中准备一个自定义 ner 模型。从训练的角度来看,v3 与 v2 相比发生了显着变化。

我正在使用 en_web_lg 的默认配置。我已经使用 convert 命令准备了训练数据(training.spacy)。但是,训练命令需要一个 dev.spacy 文件。

不确定 dev.spacy 中需要哪些数据。这是在询问 training.spacy 文件的纯文本语料库吗?但是有没有办法将纯文本文件转换为 spacy 格式..

来自 spacy 站点的命令 - python -m spacy train config.cfg --output ./output --paths.train ./train.spacy --paths.dev ./dev.spacy

有人可以帮助解释如何准备 dev.spacy。

0 投票
3 回答
2040 浏览

spacy - SpaCy:为包含在多个跨度中的令牌设置实体信息

我正在尝试在本体世界中使用 SpaCy 进行实体上下文识别。我是使用 SpaCy 的新手,只是在玩初学者。

我使用ENVO Ontology作为我的“模式”列表来创建实体识别字典。简单来说,数据是一个 ID (CURIE) 和它对应的实体的名称及其类别。

我的示例数据的屏幕截图: 在此处输入图像描述

以下是我的初始代码的工作流程:

  • 创建模式和术语
  • 设置自定义管道
  • 实现自定义管道

管道看起来像这样

  • 设置扩展

现在,当我运行文本“组织培养”时,它会抛出一个错误:

我知道为什么会发生错误。这是因为在 ENVO 数据库中有 2 个“组织培养”短语的条目,如下所示:

在此处输入图像描述

理想情况下,我希望根据文本中出现的短语来标记适当的 CURIE。我该如何解决这个错误?

我的 SpaCy 信息:

0 投票
1 回答
268 浏览

python - 向 Spacy 3.0 添加自定义语言并在其中训练管道

到目前为止,我一直在使用 Spacy 2.3.1。我创建了自己的继承自Language类的自定义类,并在其中使用 Python 脚本训练了一个 NER 管道。

但是在 Spacy 3.0 中,引入了一系列方便的 CLI 命令和配置,以训练自定义管道,强烈建议使用这些管道而不是 Python 脚本。这是nlp对象的配置示例:

如您所见,该lang属性应该是 Spacy 库中的预定义语言之一。有什么方法可以在配置中指出我需要创建一个我自己的自定义语言的对象作为nlp对象?

0 投票
1 回答
118 浏览

python - Sapcy 3.0:无法为 Lemmatizer 添加服装查找

我使用下面的代码将自定义添加Lookups到自定义Lanuage类:

但是当我实例CustomLanguagenlp.vocab.lookups. 有什么问题,我该如何解决?

0 投票
1 回答
506 浏览

python - 将训练有素的 Spacy 2 管道迁移到 Spacy 3

到目前为止,我一直在使用 spacy 2.3.1,并为我的自定义语言类训练并保存了几个管道。但是现在使用 spacy 3.0,spacy.load('model-path')我面临着诸如config.cfg file not found和其他类型的错误之类的问题。

升级 spacy 后是否必须从头开始训练模型?是否有迁移训练模型的分步指南?

0 投票
2 回答
281 浏览

python - 自定义标记化规则 spacy

对于希望将数字和符号或单词一起标记的情况,如何向 spacy 添加自定义标记化规则。例如下面的句子:

“我 100% 喜欢苹果。我喜欢 500 克的苹果”

被标记如下:

['I', '100', '%', 'like', 'apples', '.', 'I', 'like', '500', 'g', 'of', 'apples']

如果它像这样被标记化会更好:

['I', '100%', 'like', 'apples', '.', 'I', 'like', '500g', 'of', 'apples']

以下代码用于生成此代码: