问题标签 [spacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
242 浏览

python - 实例化 EntityRecognizer 在 heroku 上运行 spacy

尝试在 Heroku 上运行 spaCy。如果我打开一个 REPL heroku run python,我可以很高兴地import spacynlp=spacy.load('en'),但是如果我尝试:

我收到一个错误:

模型似乎已正确下载,而且我不是从源代码构建的。所以不确定错误可能在哪里。

0 投票
2 回答
528 浏览

vocabulary - 我可以在 spaCy 中修剪解析器的词汇表吗?

以下代码使用spaCy 词向量来查找与给定词最相似的 20 个词,方法是首先计算词汇表中所有词(超过一百万)的余弦相似度,然后对该最相似词的列表进行排序。

我想知道的是是否有一种方法可以将 spaCy 的词汇表限制为仅出现在给定列表中的单词,我希望这会大大降低排序操作的成本。

为了清楚起见,我想传入一个仅包含几个单词的列表,或者只是给定文本中的单词,并且能够快速查找这些单词中的哪些单词在 spaCy 的向量空间中彼此最近。

在这方面的任何帮助表示赞赏。

0 投票
1 回答
1539 浏览

python-2.7 - Spacy is_stop 函数(错误?)

我正在使用下面的代码来检查一个词是否是停用词。如下所示,如果 try 块失败,IS_STOP 函数会抛出错误。

我收到以下错误:

0 投票
7 回答
63191 浏览

python - 使用 spacy 添加/删除自定义停用词

用 spacy 添加/删除停用词的最佳方法是什么?我正在使用token.is_stop函数并想对集合进行一些自定义更改。我正在查看文档,但找不到任何关于停用词的信息。谢谢!

0 投票
1 回答
1475 浏览

spacy - Spacy 中的多词表达识别

我有一个文本以及索引条目,其中一些指示文本中出现的重要多词表达(MWE)(例如生物学文本的“海绵状骨骼”)。我想使用这些条目在 spaCy 中构造一个自定义匹配器,以便我可以识别文本中 MWE 的出现。另一个要求是我需要匹配出现来保留 MWE 组成词的词形还原表示和 POS 标签。

我已经查看了做类似事情的现有 spaCy 示例,但我似乎无法理解这种模式。

0 投票
0 回答
461 浏览

python - 使用 spacy 对象的 joblib

我正在使用一个中等大小的文本数据集——大约 1GB 的单个文本列,我已将其作为 pandas 系列(对象类型)加载。它被称为textData

我想为每个文本行创建文档,然后进行标记。但我想使用我的自定义标记器。

我在 main() 中运行上述函数,并使用脚本调用 main()。

任何理由这不应该工作?如果有酸洗问题 - 它不会被提出。

有什么办法可以使这项工作?

0 投票
4 回答
7564 浏览

nlp - Java 中的 spaCy 替代方案

我目前使用 spaCy 来遍历依赖树,并生成实体。

spaCy 有什么好的 Java 替代品吗?

我正在寻找像 spaCy 那样生成依赖树的库。

编辑:

我调查了斯坦福解析器。但是,它生成了以下解析树:

但是,我正在寻找像 spaCy 这样的树结构:

0 投票
2 回答
1617 浏览

python - Python Spacy 从简单被动语态句子中提取实体

使用 Python Spacy,如何从简单的被动语态句子中提取实体?在接下来的句子中,我的意图是从句子中提取“John”作为nsubjpass.ent_

句子 = “约翰被大卫指控犯罪”

0 投票
1 回答
1271 浏览

python - Spacy 从多主语被动句中提取实体

使用 Python Spacy,我正在尝试从多个主题被动语态句子中提取实体。

句子 = “约翰和珍妮被大卫指控犯罪”

我的意图是从句子中提取“John and Jenny”作为nsubjpass.ent_

但是,我只能将“John”提取为 nsubjpass。

如何提取它们?

请注意,虽然在 .ents 中发现 John 作为实体,但 Jenny 被视为 conj 而不是 nsubjpass。如何改进它?

代码

结果:

实体列表显示:

代码

`

结果

现在,如果我们检查整个句子,我们会看到如下:

代码:

结果

请注意,第二个被动主语 Jenny 在 Spacy 中被识别为 conj 而不是 nsubjpass。

0 投票
1 回答
582 浏览

python - 在 Python 3 上安装 spaCy 时出错

我正在使用 Ubuntu。我安装了 spacy

但是,我尝试了

但我不断收到错误

为什么是这样?