问题标签 [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 spaCy 获取依赖树?
我一直在尝试找到如何使用 spaCy 获取依赖树,但我找不到任何关于如何获取树的信息,只有关于如何导航树。
nlp - 在 spacy 中使用基于规则的语法进行分块
我在 nltk 中有一个简单的分块示例。
我的数据:
...预处理...
大块:
这会返回(除其他外):,(CUSTOMCHUNK walk/VB to/TO the/DT Starbucks/NNP)
所以它做了我想做的事。
现在我的问题是:我想为我的项目切换到 spacy。我将如何在 spacy 中做到这一点?
我来标记它(更粗略的.pos
方法会为我做):
...返回标签和令牌
The DET
little ADJ
yellow ADJ
dog NOUN
will VERB
then ADV
walk VERB
...
如何用自己的语法提取块?
python - 如何使用 spacy 找到最常用的单词?
我在 python 中使用 spacy,它可以很好地标记每个单词,但我想知道是否可以在字符串中找到最常见的单词。也可以得到最常用的名词、动词、副词等吗?
包含一个 count_by 函数,但我似乎无法让它以任何有意义的方式运行。
python - python中的主体对象识别
我想识别一组句子的主语和宾语。我的实际工作是从一组评论数据中找出因果关系。
我正在使用 Spacy 包来分块和解析数据。但实际上并没有达到我的目标。有什么办法吗?
例如:
出去:
python - numpy修剪字节字符串中的尾随零
我正在尝试将spacy.io文档序列化为字节字符串并将它们保存在一个numpy
数组中。
spacy
有一个to_bytes
产生bytearray
. 我调用str
它bytearray
并将该字符串对象插入到numpy
数组中。这适用于大多数文档,除了那些以尾随零字节结尾的文档。
重现:
该numpy
字符串修剪任何尾随零,但是固定长度字符串的 dtype 与输入文本的长度相同。
您甚至可以通过在数组中创建任何尾随零字节的字节串来看到这一点:
我numpy
认为尾随零无关紧要吗?但是我无法将这些字节串反序列化回spacy
文档对象。
有什么方法可以numpy
不修剪尾随零,或者我必须在这种情况下坚持使用 Python 列表吗?
python - 带有 spacy 的自定义 POS 标记
好吧,现在我有一个代码可以使用 nltk 进行自定义标记。我使用 NLTK 的 POS 标记器作为三元标记器的后退,我用自定义标记训练我自己的标记句子。这工作得很好,但我希望能够对 spacy 的 POS 标记器做同样的事情。有没有办法做到这一点?
这是我的代码:
nlp - spaCy token.tag_ 完整列表
token.tag_
in的官方文档spaCy
如下:
一个细粒度、更详细的标签,表示词类和令牌的一些基本形态信息。这些标签主要被设计为后续模型的良好特性,特别是句法解析器。它们依赖于语言和树库。训练标注器来预测这些细粒度的标签,然后使用映射表将它们减少为粗粒度的 .pos 标签。
但它没有列出完整的可用标签和每个标签的解释。我在哪里可以找到它?
python - 为其他 python 程序提供内存中的 python 对象
考虑下面的代码,第二行大约需要一分钟才能完成,对于每个程序,我都有下面的行,那么我怎样才能提供 nlp 对象而不是每次从各种程序中加载它呢?
理想情况下是这样的:
nlp 对象大约 > 2GB,因此不寻找序列化解决方案。我更喜欢提供内存中的 nlp 对象,但不知道如何围绕 python 对象创建服务器?
理想情况下,服务器应该是多线程的。
nlp - NLP 如何获得 2 个文档之间的差异
我有 2 个文档 AB(或 2 个系列文档),并且想获得一个显示两个文档之间差异的新文档:AB
不同的是,有几个定义,一个是:单词列表/“概念”包含在A中但不包含在B中。
我正在考虑对 A 和 B 的每个句子使用 TF IDF,例如:
我不确定这是否与生成新文档 C="AB" 相关,特别是对文档 C 中的“语义差异”感兴趣