问题标签 [spacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
40678 浏览

python - spaCy 的词性和依赖标签是什么意思?

spaCy 用词性(以两种不同的格式,一个存储在 the 的and属性中,另一个存储在and属性中)和对其标记的句法依赖性(存储在and属性中)标记Tokena 中的每个 s )。Documentpospos_Tokentagtag_.headdepdep_

其中一些标签是不言自明的,即使对于像我这样没有语言学背景的人来说也是如此:

其他...不是:

更糟糕的是,官方文档甚至不包含大多数这些属性的可能标签列表,也不包含其中任何一个的含义。他们有时会提到他们使用的标记化标准,但这些说法目前并不完全准确,而且这些标准很难追踪。

tag_pos_和属性的可能值是dep_什么,它们的含义是什么?

0 投票
1 回答
2263 浏览

python - 如何在 spacy nlp 中添加新实体 (ORG) 实例

我正在尝试将股票代码添加到识别为 ORG 实体的字符串中。对于每个符号,我会:

我可以看到这个符号被添加到模式中:

但是添加之前无法识别的任何符号在添加后都无法识别。显然,这些标记已经存在于词汇表中(这就是词汇长度不变的原因)。

我应该做些什么不同的事情?我错过了什么?

谢谢

这是我的示例代码:

“练习将股票代码符号添加为 ORG 实体的简短片段”

0 投票
1 回答
66 浏览

spacy - 如何保留依赖项的顺序?

我有以下代码打开目录中的文件,在它们上运行 spaCy NLP,并将输出依赖项解析信息放入新目录中的文件中。

问题是这不会保留输出文件中依赖项的顺序。我似乎在 API 文档中找不到任何对字符位置的引用。

0 投票
1 回答
5085 浏览

python - NLP - Python 中的信息提取 (spaCy)

我正在尝试从以下段落结构中提取此类信息:

我使用 PythonspaCy作为我的 NLP 库。我是 NLP 工作的新手,我希望得到一些指导,了解从此类句子中提取此表格信息的最佳方法是什么。

如果只是识别是否有人在跑步或行走,我会用它sklearn来拟合分类模型,但我需要提取的信息显然比这更细化(我正在尝试检索子类别和值每个)。任何指导将不胜感激。

0 投票
1 回答
1973 浏览

python - Spacy 中的新命名实体类

我需要训练 Spacy NER 以便能够识别 2 个用于命名实体识别的新类,我所拥有的只是包含应该在新类中的项目列表的文件。

例如:Rolling Stones、Muse、Arctic Monkeys - 艺术家 知道如何做到这一点吗?

0 投票
1 回答
2142 浏览

python - spacy中的词向量示例问题

我正在尝试运行上面的示例,但出现以下错误:

示例取自:Intro to NLP with spaCy

是什么导致了这个错误?

0 投票
1 回答
2319 浏览

nlp - 对于 Spacy 返回的那些句子,检索原始文档中的开始和结束字符索引

我正在使用类似于以下模式的东西来检索原始文档中 Spacy 句子的开始和结束索引:

这似乎适用于我使用的少数测试文档。但担心我是否忽略了像 spacy 这样的“陷阱”,有时会剥离一些我不知道的字符。我是吗?

PS:如果有帮助,我需要将这些索引与 Brat 注释文件中的索引进行比较。

0 投票
1 回答
824 浏览

python - Spacy.io 多线程与自定义管道

我正在尝试将 Spacy.io 与自定义管道一起用于语言处理,但似乎当我向管道添加自定义函数时,该进程仅在一个线程上运行。使用默认管道进程使用指定的所有线程。

这就是我定义管道的方式:

这是custom_pipeline功能:

这就是我运行管道的方式:

自定义管道函数是否有任何必要条件来支持 spacy 的多线程?

0 投票
1 回答
1880 浏览

python - 从 nltk 树中获取单词的深度

我正在开发一个 nlp 项目,我想根据它在依赖树中的位置过滤掉单词。

为了绘制树,我使用了这篇文章中的代码:

对于一个例句:

“世界上一群人突然精神上联系在一起”

我得到了这棵树:

在此处输入图像描述

从这棵树中,我想得到一个包含单词及其在树中相应深度的元组列表:

对于这种情况,我对没有孩子的单词不感兴趣:[are,suddenly,mentally,A,the] 所以到目前为止我所能做的就是只得到有孩子的单词列表,为此,我正在使用以下代码:

从这里我怎样才能得到所需的带有单词及其各自深度的元组?

0 投票
1 回答
1764 浏览

python - Spacy NLP - 使用正则表达式进行分块

Spacy 包括noun_chunks检索名词短语集的功能。该功能english_noun_chunks(附在下面)使用word.pos == NOUN

我想从一个保持一些正则表达式的句子中获取块。例如,I 短语由零个或多个形容词组成,后跟一个或多个名词。

是否有可能不覆盖该english_noun_chunks功能?