问题标签 [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Spacy:保存解析的模型
我正在使用 Spacy,它是一个 Python 自然语言处理库,将原始文本解析为这种更复杂的面向对象格式,更具体地说是依赖树。
上述操作执行需要一段时间:我需要加载一个非常昂贵的模型,然后解析非常大量的文本。我希望在后续执行中节省一些时间,以便在完成初始解析后更快地迭代处理数据。
如何在第一次运行后“保存”这些结果,然后在后续运行中更快地重新加载这些预处理版本?
PICKLE:尝试使用 pickle 时,我在反序列化 Docs/Tokens 类时收到以下错误:
谢谢。
python - 如何将 python 中的名词块与 spacy.io 进行比较
我正在尝试编写一个 Python 应用程序,它将采用自然语言查询并尝试将其转换为 SQL-Server 的 Microsoft MDX 查询,以查询 Cube。
我正在使用 spacy.io,但我无法找出将名词块与数据源/度量/过滤器/等名称进行比较的最佳方法。
示例输入语句:
从中我可以提取以下名词块:
将这些名词块与我的测试立方体中的以下显示名称进行比较的最佳方法是什么?
问题是其中一个名词块包含单词“split”,我不能只删除它,以防多维数据集的显示名称之一也包含该单词。
我考虑过尝试一些事情,例如计算字符串之间的 Levenstein 距离,但结果并不可靠,无法声明匹配。
所以我的问题是如何解决这个问题并获得更可靠的匹配?我在吠叫错误的树吗?或者也许没有充分利用 Spacy.io 的潜力?
在获得 Levenshtein 距离之前,我曾考虑过解析名词块并删除诸如“split”之类的关键词和诸如“the”之类的不必要的词,但在这种情况下,我对提供可能要删除的词列表感到不舒服有一些真正的显示名称包含其中一个关键字。
python - 如何提取句子中的主语及其各自的依赖短语?
我正在尝试在句子中进行主题提取,以便我可以根据主题获得情感。nltk
为此,我在 python2.7 中使用。以下面的句子为例:
Donald Trump is the worst president of USA, but Hillary is better than him
他我们可以看到,Donald Trump
和Hillary
是两个主体,相关的情绪Donald Trump
是消极的,而相关的Hillary
则是积极的。到现在为止,我可以把这句话分成几块名词短语,我可以得到以下信息:
现在,我该如何从这些名词短语中找到主语?那么我如何将两个主题的短语组合在一起呢?一旦我分别获得了两个主题的短语,我就可以分别对它们进行情感分析。
编辑
我查看了@Krzysiek ( spacy
) 提到的库,它在句子中也给了我依赖树。
这是代码:
以下是依赖树:
这可以深入了解句子的不同标记的依赖关系。这是该论文的链接,该链接描述了不同对之间的依赖关系。如何使用这棵树将不同主题的上下文词附加到它们?
python - 如何解释在 Python 中使用 Spacy 构建的句子解析树的结果?
我正在尝试在 Python 中使用 Spacy 构建和解释句子解析树的结果。我已经使用了以下代码:
代码给出了以下结果。有人可以告诉我如何解释吗?提前致谢!
python - Python Spacy 初学者:相似函数
在 Python 中 spaCy 的教程示例中,
结果 apples.similarity(oranges)
是
0.39289959293092641
0.7857989796519943
有什么理由吗?教程的原始文档 https://spacy.io/docs/ 与我得到的答案不同的教程:http: //textminingonline.com/getting-started-with-spacy
谢谢
python - 是否可以在 spacy 中独立进行词形还原?
我正在使用 spacy 预处理数据以进行情感分析。
我想做的是:
1) 词形还原
2) 词形词的词性标注
但是由于 spacy 在调用解析器时会立即执行所有过程,因此它会执行所有计算两次。是否有禁用非必需计算的选项?
python - 在 SpaCy v1.1.2 中加载以前保存的 NER 模型
因此,每当我尝试为 SpaCy NER 加载之前保存的模型时,我都会得到一个核心转储。
转储报告:
我做错/加载了吗?
nlp - 如何在 spaCy 中获得斯坦福风格的解析树(带有“名词短语”和“动词短语”)?
spaCy 提供 POS 标记和依赖树。是否有可能从中得到斯坦福所说的“解析”树?这两种树之间的区别可以在http://nlp.stanford.edu:8080/parser/index.jsp的斯坦福解析器演示中看到
斯坦福“解析”树:
依赖树:(由 spaCy 和 Stanford parser 提供)
是否可以推导出或直接获取 spaCy 中的解析树?我浏览了文档,但找不到任何直接的 API。
python - AWS 中的 Python“内存错误”
当我尝试在给出以下错误的脚本中加载 spacy 时?是不是因为内存满了?或任何其他原因?