问题标签 [spacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1399 浏览

python - 在 python 2.7 中安装 spaCy 英文模型时遇到问题?并将python升级到3.5?

安装程序后,我正在尝试在我的 Mac 上安装 spaCy 英文模型。现在我的机器有 python 2.7。我已经在 venv 中安装了 spaCy,然后按照网站上的说明使用“python -m spacy.en.download”安装模型。当我尝试这样做时,我得到以下响应:

回溯(最近一次通话最后):

然后,我尝试在 venv 之外的计算机上安装 spaCy 和模型,我不想这样做,但想看看它是否可以工作。我又遇到了同样的错误。

另外我想知道这个问题是否与运行 python 2.7 有关?我将计算机上的 python 升级到 3.5,但不知道如何用 3.5 替换 2.7?现在我可以使用$ python或在解释器上运行$ python3。如何将所有内容升级到 3.5?

先感谢您!

0 投票
1 回答
886 浏览

python - 逐行写入文件时内存不足[Python]

我有一些大数据的数据处理任务。我使用 Python 在 EC2 上运行脚本,如下所示:

我逐行循环数据并将结果逐行写入另一个文件。

运行了几个小时后,我无法登录服务器。我必须重新启动实例才能继续。

服务器很可能内存不足。写入文件时,RAM 会慢慢上升。我不确定为什么在逐行读写时内存会成为问题。

我有足够的硬盘空间。

我认为最接近这个问题:Python“打开”函数是否将其内容保存在内存或临时文件中?

0 投票
3 回答
2137 浏览

python - 如何将 SyntaxNet 解析器/标记器与 spaCy API 一起使用?

我一直在使用spaCy Python 包来解析和标记文本,并使用生成的依赖树和其他属性来获取含义。现在我想使用 SyntaxNet 的 Parsey McParseface 进行解析和依赖标记(这似乎更好),但我想继续使用 spaCy API,因为它非常易于使用并且它可以做很多 Parsey 没有做的事情。SyntaxNet 以 CoNLL 格式输出 POS 标签和依赖标签/树:

  1. Bob _ NOUN NNP _ 2 nsubj _ _
  2. 带来 _ VERB VBD _ 0 ROOT _ _
  3. _ DET DT _ 4 检测 _ _
  4. 比萨饼_名词NN _ 2 dobj _ _
  5. 到 _ ADP IN _ 2 准备 _ _
  6. Alice _ NOUN NNP _ 5 pobj _ _
  7. . _ . . _ 2 点 _ _

并且 spaCy 似乎能够在这里读取 CoNLL 格式。但我不知道在 spaCy 的 API 中哪里需要一个 CoNLL-fromatted 字符串。

0 投票
2 回答
4068 浏览

python - 如何训练 sense2vec 模型

sense2vec 的文档提到了 3 个主要文件——第一个是 merge_text.py。由于 merge_text.py 尝试打开由 bzip2 压缩的文件,因此我尝试了几种类型的输入 - txt、csv、bzipped 文件。

该文件位于: https ://github.com/spacy-io/sense2vec/blob/master/bin/merge_text.py

这个脚本需要什么类型的输入格式?此外,如果有人可以建议如何训练模型。

0 投票
5 回答
3616 浏览

python - SpaCy 安装(扩展)因 pip 安装而失败

向我推荐了需要一个具有良好 POS 标记器的 Python 模块,用于德语 SpaCy。在我的带有 Python 3.4 的 Win10 64Bit 上,我尝试按照其主页上的说明安装 SpaCy,首先准备 virtualenv(部分安装,Windows 在源代码 .env/bin/activate 处失败),然后使用 pip install。由于这不太奏效,我通过 git cmd 从 github 克隆了 SpaCy,然后在 Windows 控制台中继续使用virtualenv .env && source .env/bin/activate它再次在“源”失败。之后也pip install -r requirements.txt失败了。

然后我尝试pip install -U spacy了它似乎工作正常(没有错误消息),但是使用 SpaCy 的进一步命令(例如安装模型),使用python -m spacy.en.download --forceall 失败并带有Error while finding spec for 'spacy.en.download' (<class 'ImportError'>: No module named 'spacy.attrs').

我做错了什么?如何确保 SpaCy 的顺利安装?当我尝试时,它至少在列表中pip list。谢谢大家!

0 投票
1 回答
1254 浏览

python - 如何将 spaCy 模型保存到缓存中?

我将 spaCy 与 Python 一起用于命名实体识别,但脚本需要在每次运行时加载模型,并且需要大约 1.6GB 的内存来加载它。
但 1.6GB 并不是每次运行都可有可无。
如何将其加载到缓存或临时内存中以使脚本运行得更快?

0 投票
0 回答
212 浏览

spacy - 针对特定句子训练 spaCy

我如何训练 spaCy 为像“孩子喜欢巧克力”这样的单个句子做适当的依赖标记。

spaCy 目前将“children”、“like”、“chocolates”的依赖分别标记为 ROOT、PREP 和 POBJ,而正​​确的标记分别是 SUB、ROOT 和 DOBJ。

0 投票
1 回答
1149 浏览

spacy - 将单数复数组合添加到 SpaCy

如何向 SpaCy 添加新的引理。例如,新的单复数名词。

示例:Kirana = 单数 Kiranas = 复数

我想将它添加到 SpaCy,以便当句子包含“Kiranas”时,Kirana 将显示为其引理。

0 投票
5 回答
69252 浏览

python - 如何使用 spacy lemmatizer 将单词转换为基本形式

我是 spacy 的新手,我想使用它的 lemmatizer 功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。

例子:

  • '单词'=> '单词'
  • “做过”=>“做”

谢谢你。

0 投票
1 回答
9151 浏览

python - 当我尝试安装 spaCy 英语语言模型时,我得到 CERTIFICATE_VERIFY_FAILED

我通过 Anaconda 在 Python 3.5.2 上运行 OS X El Capitan 并拥有 spaCy 0.101.0。

我正在尝试使用python -m spacy.en.download. 但是,当我这样做时,我收到一条错误消息urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)>。完整的 Traceback 如下: