问题标签 [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么在使用 spacy 进行词干提取/词形还原时我们不能得到一致的结果?
这是我的python代码:
输出是:
为什么第三个algorithms
没有转换为“算法”?当我删除lower()
功能时,我得到了这个:
这次第一个和第二个algorithms
无法转换。这个问题让我发疯,我该如何解决这个问题才能让每个单词都被词形还原?
nlp - 使用 Spacy 或 NLTK 在文章中搜索职位
我是 NLP 新手,最近一直在玩 NTLK 和 Spacy。但是,我找不到在文章中搜索职位(例如:产品经理、首席营销官等)的方法。
例如,我有 1000 篇文章,我想获取所有具有我感兴趣的职位的文章。
另外,职位属于什么实体类型?我检查了https://spacy.io/docs/usage/entity-recognition并没有在其中看到它。我有计划添加吗?
谢谢。
nlp - 查找两个带有 spacy 的文档共享的令牌百分比
对于 nltk 它会是这样的:
由于 spacy 更快,我试图在 spacy 中做到这一点,但令牌对象似乎没有为此提供快速解决方案。有任何想法吗?
谢谢大家。
apache - 在 apache mod_wsgi 环境中仅实例化 Spacy 对象一次
我的应用程序.py
当我在开发模式下运行这个应用程序时,__main__
它将执行并且它只会实例化一次 spacy,我将使用它。
对于生产,我们使用 apache 服务器 mod_wsgi 配置。同样我想实例化一次(myapp)并使用相同的obj。在我的配置中,它为每个请求实例化。请提出一些解决方案。
环境
操作系统: Linux
使用的 Python 版本: 2.7
环境信息: apache mod_wsgi 部署
spacy - 尝试运行 Spacy 文本蕴涵示例并获得值错误(keras)
大家好,我正在尝试运行 spacy 示例以进行文本蕴涵。我已经安装了所有要求,我正在尝试运行初步测试..
我得到错误
应该很简单,任何帮助表示赞赏。
python - 安装 spaCy - SSL 证书错误
我已经安装了 spaCy,pip install spacy
但是在尝试时python -m spacy.en.download all
,我收到以下错误..
(对于谷歌——ssl.CertificateError: hostname 'index.spacy.io
不匹配 'api.explosion.ai'`)
有没有办法轻松解决这个问题?参考..
python - 在 Spacy for Python3 中安装英文模型的问题
(Mac OS X 10.12.2)
所以,当我运行这两行时:
它运行良好,我可以在 python (2.x) 中使用 spacy 和英文模型
但是当我为 python3 (3.6.0) 运行相同的
它安装了 spacy,但下载模型时出现错误。因此,当我在 python3 中使用 spacy 时它不起作用,我得到的是空字段而不是 pos、tag ...
我得到的错误与 urllib 有关:
关于做什么的任何想法?
多谢!干杯
编辑:我也在 Github 上的 spacy 存储库上问过这个问题,显然唯一的方法是将数据从 python2.7 复制/粘贴到 python3.6:
所以我将文件夹en-1.1.0
从复制/粘贴/Users/[myname]/anaconda/lib/python2.7/site-packages/spacy/data
到/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/spacy/data/
一切正常,现在可以在 python3 中使用 Spacy 了!
希望它会帮助别人
python - 在对字符串进行标记时,如何防止 spacy 的标记器拆分特定的子字符串?
在对字符串进行标记时,如何防止 spacy 的标记器拆分特定的子字符串?
更具体地说,我有这句话:
一旦取消注册,该文件夹就会从外壳中消失。
scapy 1.6.0 将其标记为 [Once/unregistered/,/the/folder/went/away/from/the/ she/ll /.]。我不希望将子字符串shell
切割成两个不同的标记she
和ll
.
这是我使用的代码:
输出:
python-2.7 - from backports import csv ImportError: cannot import name csv
我正在使用基于Python Spacy构建的 NLP 工具。这个工具叫做textacy。我安装了 Spacy、textacy 并下载了 Spacy 的英文数据。全部在我的Python2.7上
现在,当我尝试使用 textacy 提取名词块时:
它一直向我展示这个
因此我尝试安装backports.csv
. 我尝试从 1.0 版到最新的 1.0.3 版,它一直在重新调整我同样的错误....
你知道如何解决这个问题吗?
python - 如何在 Bluemix 上下载 Spacy 语言模型
我有一个要推送到 bluemix 的 python 程序。该程序使用spacy。我没有使用任何 buildpack,因为 bluemix 不需要 python。我将 spacy 放入我的 requirements.txt 并进行推送。Spacy 需要安装语言模型。安装英语语言模型的命令如下:
python -m spacy.en.download all
如何在 bluemix 上做到这一点?