问题标签 [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - spaCy 的词性和依赖标签是什么意思?
spaCy 用词性(以两种不同的格式,一个存储在 the 的and属性中,另一个存储在and属性中)和对其标记的句法依赖性(存储在and属性中)标记Token
a 中的每个 s )。Document
pos
pos_
Token
tag
tag_
.head
dep
dep_
其中一些标签是不言自明的,即使对于像我这样没有语言学背景的人来说也是如此:
其他...不是:
更糟糕的是,官方文档甚至不包含大多数这些属性的可能标签列表,也不包含其中任何一个的含义。他们有时会提到他们使用的标记化标准,但这些说法目前并不完全准确,而且这些标准很难追踪。
tag_
、pos_
和属性的可能值是dep_
什么,它们的含义是什么?
python - 如何在 spacy nlp 中添加新实体 (ORG) 实例
我正在尝试将股票代码添加到识别为 ORG 实体的字符串中。对于每个符号,我会:
我可以看到这个符号被添加到模式中:
但是添加之前无法识别的任何符号在添加后都无法识别。显然,这些标记已经存在于词汇表中(这就是词汇长度不变的原因)。
我应该做些什么不同的事情?我错过了什么?
谢谢
这是我的示例代码:
“练习将股票代码符号添加为 ORG 实体的简短片段”
spacy - 如何保留依赖项的顺序?
我有以下代码打开目录中的文件,在它们上运行 spaCy NLP,并将输出依赖项解析信息放入新目录中的文件中。
问题是这不会保留输出文件中依赖项的顺序。我似乎在 API 文档中找不到任何对字符位置的引用。
python - NLP - Python 中的信息提取 (spaCy)
我正在尝试从以下段落结构中提取此类信息:
我使用 PythonspaCy
作为我的 NLP 库。我是 NLP 工作的新手,我希望得到一些指导,了解从此类句子中提取此表格信息的最佳方法是什么。
如果只是识别是否有人在跑步或行走,我会用它sklearn
来拟合分类模型,但我需要提取的信息显然比这更细化(我正在尝试检索子类别和值每个)。任何指导将不胜感激。
python - Spacy 中的新命名实体类
我需要训练 Spacy NER 以便能够识别 2 个用于命名实体识别的新类,我所拥有的只是包含应该在新类中的项目列表的文件。
例如:Rolling Stones、Muse、Arctic Monkeys - 艺术家 知道如何做到这一点吗?
nlp - 对于 Spacy 返回的那些句子,检索原始文档中的开始和结束字符索引
我正在使用类似于以下模式的东西来检索原始文档中 Spacy 句子的开始和结束索引:
这似乎适用于我使用的少数测试文档。但担心我是否忽略了像 spacy 这样的“陷阱”,有时会剥离一些我不知道的字符。我是吗?
PS:如果有帮助,我需要将这些索引与 Brat 注释文件中的索引进行比较。
python - Spacy.io 多线程与自定义管道
我正在尝试将 Spacy.io 与自定义管道一起用于语言处理,但似乎当我向管道添加自定义函数时,该进程仅在一个线程上运行。使用默认管道进程使用指定的所有线程。
这就是我定义管道的方式:
这是custom_pipeline
功能:
这就是我运行管道的方式:
自定义管道函数是否有任何必要条件来支持 spacy 的多线程?
python - 从 nltk 树中获取单词的深度
我正在开发一个 nlp 项目,我想根据它在依赖树中的位置过滤掉单词。
为了绘制树,我使用了这篇文章中的代码:
对于一个例句:
“世界上一群人突然精神上联系在一起”
我得到了这棵树:
从这棵树中,我想得到一个包含单词及其在树中相应深度的元组列表:
对于这种情况,我对没有孩子的单词不感兴趣:[are,suddenly,mentally,A,the] 所以到目前为止我所能做的就是只得到有孩子的单词列表,为此,我正在使用以下代码:
从这里我怎样才能得到所需的带有单词及其各自深度的元组?
python - Spacy NLP - 使用正则表达式进行分块
Spacy 包括noun_chunks
检索名词短语集的功能。该功能english_noun_chunks
(附在下面)使用word.pos == NOUN
我想从一个保持一些正则表达式的句子中获取块。例如,I 短语由零个或多个形容词组成,后跟一个或多个名词。
是否有可能不覆盖该english_noun_chunks
功能?