问题标签 [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 python 2.7 中安装 spaCy 英文模型时遇到问题?并将python升级到3.5?
安装程序后,我正在尝试在我的 Mac 上安装 spaCy 英文模型。现在我的机器有 python 2.7。我已经在 venv 中安装了 spaCy,然后按照网站上的说明使用“python -m spacy.en.download”安装模型。当我尝试这样做时,我得到以下响应:
回溯(最近一次通话最后):
然后,我尝试在 venv 之外的计算机上安装 spaCy 和模型,我不想这样做,但想看看它是否可以工作。我又遇到了同样的错误。
另外我想知道这个问题是否与运行 python 2.7 有关?我将计算机上的 python 升级到 3.5,但不知道如何用 3.5 替换 2.7?现在我可以使用$ python
或在解释器上运行$ python3
。如何将所有内容升级到 3.5?
先感谢您!
python - 逐行写入文件时内存不足[Python]
我有一些大数据的数据处理任务。我使用 Python 在 EC2 上运行脚本,如下所示:
我逐行循环数据并将结果逐行写入另一个文件。
运行了几个小时后,我无法登录服务器。我必须重新启动实例才能继续。
服务器很可能内存不足。写入文件时,RAM 会慢慢上升。我不确定为什么在逐行读写时内存会成为问题。
我有足够的硬盘空间。
我认为最接近这个问题:Python“打开”函数是否将其内容保存在内存或临时文件中?
python - 如何将 SyntaxNet 解析器/标记器与 spaCy API 一起使用?
我一直在使用spaCy Python 包来解析和标记文本,并使用生成的依赖树和其他属性来获取含义。现在我想使用 SyntaxNet 的 Parsey McParseface 进行解析和依赖标记(这似乎更好),但我想继续使用 spaCy API,因为它非常易于使用并且它可以做很多 Parsey 没有做的事情。SyntaxNet 以 CoNLL 格式输出 POS 标签和依赖标签/树:
- Bob _ NOUN NNP _ 2 nsubj _ _
- 带来 _ VERB VBD _ 0 ROOT _ _
- _ DET DT _ 4 检测 _ _
- 比萨饼_名词NN _ 2 dobj _ _
- 到 _ ADP IN _ 2 准备 _ _
- Alice _ NOUN NNP _ 5 pobj _ _
- . _ . . _ 2 点 _ _
并且 spaCy 似乎能够在这里读取 CoNLL 格式。但我不知道在 spaCy 的 API 中哪里需要一个 CoNLL-fromatted 字符串。
python - 如何训练 sense2vec 模型
sense2vec 的文档提到了 3 个主要文件——第一个是 merge_text.py。由于 merge_text.py 尝试打开由 bzip2 压缩的文件,因此我尝试了几种类型的输入 - txt、csv、bzipped 文件。
该文件位于: https ://github.com/spacy-io/sense2vec/blob/master/bin/merge_text.py
这个脚本需要什么类型的输入格式?此外,如果有人可以建议如何训练模型。
python - SpaCy 安装(扩展)因 pip 安装而失败
向我推荐了需要一个具有良好 POS 标记器的 Python 模块,用于德语 SpaCy。在我的带有 Python 3.4 的 Win10 64Bit 上,我尝试按照其主页上的说明安装 SpaCy,首先准备 virtualenv(部分安装,Windows 在源代码 .env/bin/activate 处失败),然后使用 pip install。由于这不太奏效,我通过 git cmd 从 github 克隆了 SpaCy,然后在 Windows 控制台中继续使用virtualenv .env && source .env/bin/activate
它再次在“源”失败。之后也pip install -r requirements.txt
失败了。
然后我尝试pip install -U spacy
了它似乎工作正常(没有错误消息),但是使用 SpaCy 的进一步命令(例如安装模型),使用python -m spacy.en.download --force
all 失败并带有Error while finding spec for 'spacy.en.download' (<class 'ImportError'>: No module named 'spacy.attrs')
.
我做错了什么?如何确保 SpaCy 的顺利安装?当我尝试时,它至少在列表中pip list
。谢谢大家!
python - 如何将 spaCy 模型保存到缓存中?
我将 spaCy 与 Python 一起用于命名实体识别,但脚本需要在每次运行时加载模型,并且需要大约 1.6GB 的内存来加载它。
但 1.6GB 并不是每次运行都可有可无。
如何将其加载到缓存或临时内存中以使脚本运行得更快?
spacy - 针对特定句子训练 spaCy
我如何训练 spaCy 为像“孩子喜欢巧克力”这样的单个句子做适当的依赖标记。
spaCy 目前将“children”、“like”、“chocolates”的依赖分别标记为 ROOT、PREP 和 POBJ,而正确的标记分别是 SUB、ROOT 和 DOBJ。
spacy - 将单数复数组合添加到 SpaCy
如何向 SpaCy 添加新的引理。例如,新的单复数名词。
示例:Kirana = 单数 Kiranas = 复数
我想将它添加到 SpaCy,以便当句子包含“Kiranas”时,Kirana 将显示为其引理。
python - 如何使用 spacy lemmatizer 将单词转换为基本形式
我是 spacy 的新手,我想使用它的 lemmatizer 功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。
例子:
- '单词'=> '单词'
- “做过”=>“做”
谢谢你。
python - 当我尝试安装 spaCy 英语语言模型时,我得到 CERTIFICATE_VERIFY_FAILED
我通过 Anaconda 在 Python 3.5.2 上运行 OS X El Capitan 并拥有 spaCy 0.101.0。
我正在尝试使用python -m spacy.en.download
. 但是,当我这样做时,我收到一条错误消息urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)>
。完整的 Traceback 如下: