问题标签 [spacy-3]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 SpaCy Displacy 可视化定制的 NER 标签
我是 spaCy 和 Python 的新手,我想使用这个库来可视化一个 NER。这是我找到的示例:
但是,我已经有一个自定义标签列表及其位置:
我希望使用我自己的自定义标签和实体来可视化我的文本,而不是 spaCy 的默认 NER 选项。我怎样才能做到这一点?
spacy - Spacy 中的 PhraseMatcher 是否仍然适用于错误的标记化?
https://spacy.io/usage/rule-based-matching#phrasematcher
对于这个例子:
医生说:
'Washington, DC' 可以与文本成功匹配而无需担心标记化的原因是因为'Washington, DC' 的标记化是正确的。假设标记化如下所示:
我的问题是,如果'C. and' 被标记为一个标记,'Washington, DC' 的匹配是否仍然成功?
nlp - NER 使用 Spacy 库(概率分析)
目标:提高 Spacy NER 模型的准确性,将数据输入作为报纸文章链接,特别是关于洗钱和相关关键字的链接。
有什么方法可以让我得出将特定实体分类为名称、位置、组织的概率?
python - 使用 spacy 通过 token id 提取张量
我正在使用 spacy 3.0 使用变压器模型对文本进行矢量化。由于数据隐私的原因,矢量化必须在与训练模型的机器不同的机器上。为了减少我生成的数据量以及必须在机器之间传输的数据量,我提取了文本的令牌 ID,如下所示:
返回
现在有了 id,是否可以de_dep_news_trf
使用 spacy 从语言模型 () 中提取正确的张量?
python - 如何配置 Spacy 管道以对拼写检查器组件的结果进行词形还原?
我目前正在尝试将拼写检查步骤添加到 Spacy 的内置管道之一中,特别是'en_core_web_sm'
我发现了一个非常简洁的组件,称为上下文拼写检查,我已将其插入到管道中。问题在于,即使在我将管道重新排序为['tok2vec', 'parser', 'contextual spellchecker', 'tagger', 'attribute_ruler', 'lemmatizer', 'ner']
.
例如:
将返回正确的拼写检查结果:
但是,检查基本结果:
如何确保在拼写检查的术语上进行词形还原?
python - 将标记器添加到空白英语 spacy 管道
我很难弄清楚如何从 spacy V3 中的内置模型一点一点地组装 spacy 管道。我已经下载了en_core_web_sm
模型,可以用nlp = spacy.load("en_core_web_sm")
. 示例文本的处理就像这样工作得很好。
现在我想要的是从空白构建一个英语管道并一点一点地添加组件。我不想加载整个en_core_web_sm
管道并排除组件。为了具体起见,假设我只想要tagger
管道中的 spacy 默认值。文档向我建议
应该管用。但是我收到与以下相关的错误hashembed
:
暗示我应该跑initialize()
。好的。如果我然后运行,nlp.initialize()
我最终会收到此错误
现在我有点不知所措。哪些标签示例?我从哪里拿走它们?为什么默认模型配置不解决这个问题?我必须告诉 spacy 以en_core_web_sm
某种方式使用吗?如果是这样,我怎么能这样做而不使用spacy.load("en_core_web_sm")
和排除一大堆东西?感谢您的提示!
编辑:理想情况下,我希望能够从修改后的配置文件中仅加载管道的一部分,例如nlp = English.from_config(config)
. 我什至不能使用附带的配置文件,en_core_web_sm
因为生成的管道也需要初始化,nlp.initialize()
现在我收到了
暗示它没有找到所需的查找表。
python - 由 Pyinstaller 生成的可执行文件显示 Spacy 模块的错误,即:ModuleNotFoundError: No module named 'spacy.tokens._dict_proxies'
我正在使用 PyQt5 和 Spacy 构建一个基于 GUI 的网络爬虫应用程序:
当我使用 Python.exe 执行它时,它运行得非常好。
我使用 PyInstaller 为我的整个程序创建了一个独立的 exe 文件,只是为了将它分发给我的团队(他们只是用户)。
但是当我双击该 .exe 文件打开时,它会显示一些类似这样的错误:
提供:我还使用 Pyinstaller 挂钩文件和规范文件为 Spacy 导入了语言模型。因为 Pyinstaller 不支持 Spacy。但是现在我不确定我错过了哪个模块,或者在哪里将该模块放入我的 PyInstaller 构建中。
transformer - 在线文档中 Transformers 的 Spacy 3.1 示例代码似乎是错误的
在 Spacy 的最新文档中,以下链接给出了以下示例:
https://spacy.io/usage/embeddings-transformers
此代码在尝试处理测试数据时抛出异常:
AttributeError:[E047] 无法为未注册的扩展属性“custom_attr”赋值。你忘记调用set_extension
方法了吗?
我使用以下方式设置扩展名:
Doc.set_extension('custom_attr', default=True)
我的问题是,Transform 类是否应该自己处理添加这个特殊扩展(如示例代码中所暗示的那样),或者这只是示例中的一个错误?