问题标签 [spacy-3]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

183 问题

0 投票

1 回答

643 浏览

python - 使用 SpaCy Displacy 可视化定制的 NER 标签

我是 spaCy 和 Python 的新手，我想使用这个库来可视化一个 NER。这是我找到的示例：

可视化的例子

但是，我已经有一个自定义标签列表及其位置：

我希望使用我自己的自定义标签和实体来可视化我的文本，而不是 spaCy 的默认 NER 选项。我怎样才能做到这一点？

python spacy named-entity-recognition spacy-3

2021-07-26T14:48:32.180

0 投票

1 回答

33 浏览

spacy - Spacy 中的 PhraseMatcher 是否仍然适用于错误的标记化？

https://spacy.io/usage/rule-based-matching#phrasematcher

对于这个例子：

医生说：

'Washington, DC' 可以与文本成功匹配而无需担心标记化的原因是因为'Washington, DC' 的标记化是正确的。假设标记化如下所示：

我的问题是，如果'C. and' 被标记为一个标记，'Washington, DC' 的匹配是否仍然成功？

spacy spacy-3

2021-07-26T17:07:41.293

0 投票

0 回答

27 浏览

nlp - NER 使用 Spacy 库（概率分析）

目标：提高 Spacy NER 模型的准确性，将数据输入作为报纸文章链接，特别是关于洗钱和相关关键字的链接。

有什么方法可以让我得出将特定实体分类为名称、位置、组织的概率？

nlp stanford-nlp named-entity-recognition spacy-3

2021-07-28T01:30:01.080

0 投票

1 回答

112 浏览

python - 使用 spacy 通过 token id 提取张量

我正在使用 spacy 3.0 使用变压器模型对文本进行矢量化。由于数据隐私的原因，矢量化必须在与训练模型的机器不同的机器上。为了减少我生成的数据量以及必须在机器之间传输的数据量，我提取了文本的令牌 ID，如下所示：

返回

现在有了 id，是否可以de_dep_news_trf使用 spacy 从语言模型 () 中提取正确的张量？

python nlp spacy transformer spacy-3

2021-07-29T09:54:23.463

0 投票

1 回答

58 浏览

python - 如何配置 Spacy 管道以对拼写检查器组件的结果进行词形还原？

我目前正在尝试将拼写检查步骤添加到 Spacy 的内置管道之一中，特别是'en_core_web_sm'

我发现了一个非常简洁的组件，称为上下文拼写检查，我已将其插入到管道中。问题在于，即使在我将管道重新排序为['tok2vec', 'parser', 'contextual spellchecker', 'tagger', 'attribute_ruler', 'lemmatizer', 'ner'].

例如：

将返回正确的拼写检查结果：

但是，检查基本结果：

如何确保在拼写检查的术语上进行词形还原？

python nlp spacy spacy-3

2021-08-01T10:52:05.260

0 投票

1 回答

373 浏览

python - 将标记器添加到空白英语 spacy 管道

我很难弄清楚如何从 spacy V3 中的内置模型一点一点地组装 spacy 管道。我已经下载了en_core_web_sm模型，可以用nlp = spacy.load("en_core_web_sm"). 示例文本的处理就像这样工作得很好。

现在我想要的是从空白构建一个英语管道并一点一点地添加组件。我不想加载整个en_core_web_sm管道并排除组件。为了具体起见，假设我只想要tagger管道中的 spacy 默认值。文档向我建议

应该管用。但是我收到与以下相关的错误hashembed：

暗示我应该跑initialize()。好的。如果我然后运行，nlp.initialize()我最终会收到此错误

现在我有点不知所措。哪些标签示例？我从哪里拿走它们？为什么默认模型配置不解决这个问题？我必须告诉 spacy 以en_core_web_sm某种方式使用吗？如果是这样，我怎么能这样做而不使用spacy.load("en_core_web_sm")和排除一大堆东西？感谢您的提示！

编辑：理想情况下，我希望能够从修改后的配置文件中仅加载管道的一部分，例如nlp = English.from_config(config). 我什至不能使用附带的配置文件，en_core_web_sm因为生成的管道也需要初始化，nlp.initialize()现在我收到了

暗示它没有找到所需的查找表。

python python-3.x spacy spacy-3

2021-08-02T08:47:12.807

0 投票

1 回答

49 浏览

python - spaCy没有在句子中提取所有ORG标签

我正在使用 spaCy 尝试在句子中提取 ORG 实体标签。但是，它并没有拾取所有标签，而且它拾取的标签因组织名称的书写方式而异。例如：

生成：这显然是遗漏的Facebook

尽管

生成：现在缺少Google和Facebook。

关于我做错了什么的任何想法？

python spacy spacy-3

2021-08-02T17:50:17.537

0 投票

0 回答

79 浏览

python - 由 Pyinstaller 生成的可执行文件显示 Spacy 模块的错误，即：ModuleNotFoundError: No module named 'spacy.tokens._dict_proxies'

我正在使用 PyQt5 和 Spacy 构建一个基于 GUI 的网络爬虫应用程序：

当我使用 Python.exe 执行它时，它运行得非常好。
我使用 PyInstaller 为我的整个程序创建了一个独立的 exe 文件，只是为了将它分发给我的团队（他们只是用户）。
但是当我双击该 .exe 文件打开时，它会显示一些类似这样的错误：

提供：我还使用 Pyinstaller 挂钩文件和规范文件为 Spacy 导入了语言模型。因为 Pyinstaller 不支持 Spacy。但是现在我不确定我错过了哪个模块，或者在哪里将该模块放入我的 PyInstaller 构建中。

python pyinstaller spacy spacy-3

2021-08-03T12:52:43.937

0 投票

1 回答

101 浏览

transformer - 在线文档中 Transformers 的 Spacy 3.1 示例代码似乎是错误的

在 Spacy 的最新文档中，以下链接给出了以下示例：

https://spacy.io/usage/embeddings-transformers

此代码在尝试处理测试数据时抛出异常：

AttributeError：[E047] 无法为未注册的扩展属性“custom_attr”赋值。你忘记调用set_extension方法了吗？

我使用以下方式设置扩展名：

Doc.set_extension('custom_attr', default=True)

我的问题是，Transform 类是否应该自己处理添加这个特殊扩展（如示例代码中所暗示的那样），或者这只是示例中的一个错误？

transformer code-documentation spacy-3 spacy-transformers

2021-08-06T15:26:42.070

0 投票

0 回答

38 浏览

python-3.x - 即使我已经下载了模型并用它编写了配置文件，如何解决“警告：找不到 en_core_web_sm 的模型”

请诊断这个

这是我的康达清单

python-3.x chatbot spacy rasa spacy-3

2021-08-10T06:07:17.990

1 2 3 4 5 6 7 8 9 10