问题标签 [spacy-3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
643 浏览

python - 使用 SpaCy Displacy 可视化定制的 NER 标签

我是 spaCy 和 Python 的新手,我想使用这个库来可视化一个 NER。这是我找到的示例:

可视化的例子

但是,我已经有一个自定义标签列表及其位置:

我希望使用我自己的自定义标签和实体来可视化我的文本,而不是 spaCy 的默认 NER 选项。我怎样才能做到这一点?

0 投票
1 回答
33 浏览

spacy - Spacy 中的 PhraseMatcher 是否仍然适用于错误的标记化?

https://spacy.io/usage/rule-based-matching#phrasematcher

对于这个例子:

医生说:

'Washington, DC' 可以与文本成功匹配而无需担心标记化的原因是因为'Washington, DC' 的标记化是正确的。假设标记化如下所示:

我的问题是,如果'C. and' 被标记为一个标记,'Washington, DC' 的匹配是否仍然成功?

0 投票
0 回答
27 浏览

nlp - NER 使用 Spacy 库(概率分析)

目标:提高 Spacy NER 模型的准确性,将数据输入作为报纸文章链接,特别是关于洗钱和相关关键字的链接。

有什么方法可以让我得出将特定实体分类为名称、位置、组织的概率?

0 投票
1 回答
112 浏览

python - 使用 spacy 通过 token id 提取张量

我正在使用 spacy 3.0 使用变压器模型对文本进行矢量化。由于数据隐私的原因,矢量化必须在与训练模型的机器不同的机器上。为了减少我生成的数据量以及必须在机器之间传输的数据量,我提取了文本的令牌 ID,如下所示:

返回

现在有了 id,是否可以de_dep_news_trf使用 spacy 从语言模型 () 中提取正确的张量?

0 投票
1 回答
58 浏览

python - 如何配置 Spacy 管道以对拼写检查器组件的结果进行词形还原?

我目前正在尝试将拼写检查步骤添加到 Spacy 的内置管道之一中,特别是'en_core_web_sm'

我发现了一个非常简洁的组件,称为上下文拼写检查,我已将其插入到管道中。问题在于,即使在我将管道重新排序为['tok2vec', 'parser', 'contextual spellchecker', 'tagger', 'attribute_ruler', 'lemmatizer', 'ner'].

例如:

将返回正确的拼写检查结果:

但是,检查基本结果:

如何确保在拼写检查的术语上进行词形还原?

0 投票
1 回答
373 浏览

python - 将标记器添加到空白英语 spacy 管道

我很难弄清楚如何从 spacy V3 中的内置模型一点一点地组装 spacy 管道。我已经下载了en_core_web_sm模型,可以用nlp = spacy.load("en_core_web_sm"). 示例文本的处理就像这样工作得很好。

现在我想要的是从空白构建一个英语管道并一点一点地添加组件。我不想加载整个en_core_web_sm管道并排除组件。为了具体起见,假设我只想要tagger管道中的 spacy 默认值。文档向我建议

应该管用。但是我收到与以下相关的错误hashembed

暗示我应该跑initialize()。好的。如果我然后运行,nlp.initialize()我最终会收到此错误

现在我有点不知所措。哪些标签示例?我从哪里拿走它们?为什么默认模型配置不解决这个问题?我必须告诉 spacy 以en_core_web_sm某种方式使用吗?如果是这样,我怎么能这样做而不使用spacy.load("en_core_web_sm")和排除一大堆东西?感谢您的提示!

编辑:理想情况下,我希望能够从修改后的配置文件中仅加载管道的一部分,例如nlp = English.from_config(config). 我什至不能使用附带的配置文件,en_core_web_sm因为生成的管道也需要初始化,nlp.initialize()现在我收到了

暗示它没有找到所需的查找表。

0 投票
1 回答
49 浏览

python - spaCy没有在句子中提取所有ORG标签

我正在使用 spaCy 尝试在句子中提取 ORG 实体标签。但是,它并没有拾取所有标签,而且它拾取的标签因组织名称的书写方式而异。例如:

生成: 在此处输入图像描述 这显然是遗漏的Facebook

尽管

生成: 在此处输入图像描述 现在缺少GoogleFacebook

关于我做错了什么的任何想法?

0 投票
0 回答
79 浏览

python - 由 Pyinstaller 生成的可执行文件显示 Spacy 模块的错误,即:ModuleNotFoundError: No module named 'spacy.tokens._dict_proxies'

我正在使用 PyQt5 和 Spacy 构建一个基于 GUI 的网络爬虫应用程序:

  1. 当我使用 Python.exe 执行它时,它运行得非常好。

  2. 我使用 PyInstaller 为我的整个程序创建了一个独立的 exe 文件,只是为了将它分发给我的团队(他们只是用户)。

  3. 但是当我双击该 .exe 文件打开时,它会显示一些类似这样的错误:

提供:我还使用 Pyinstaller 挂钩文件和规范文件为 Spacy 导入了语言模型。因为 Pyinstaller 不支持 Spacy。但是现在我不确定我错过了哪个模块,或者在哪里将该模块放入我的 PyInstaller 构建中。

0 投票
1 回答
101 浏览

transformer - 在线文档中 Transformers 的 Spacy 3.1 示例代码似乎是错误的

在 Spacy 的最新文档中,以下链接给出了以下示例:

https://spacy.io/usage/embeddings-transformers

此代码在尝试处理测试数据时抛出异常:

AttributeError:[E047] 无法为未注册的扩展属性“custom_attr”赋值。你忘记调用set_extension方法了吗?

我使用以下方式设置扩展名:

Doc.set_extension('custom_attr', default=True)

我的问题是,Transform 类是否应该自己处理添加这个特殊扩展(如示例代码中所暗示的那样),或者这只是示例中的一个错误?

0 投票
0 回答
38 浏览

python-3.x - 即使我已经下载了模型并用它编写了配置文件,如何解决“警告:找不到 en_core_web_sm 的模型”

请诊断这个

代码

这是我的康达清单