问题标签 [textacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1496 浏览

python - 更有效地实现 Textacy / spacy 'subject_verb_object_triples'

我正在尝试从我的数据集上的 textacy 中实现“extract.subject_verb_object_triples”功能。但是,我编写的代码非常缓慢且占用大量内存。有没有更有效的实现方式?

样本数据 (sp500news)

0 投票
1 回答
282 浏览

python - 如何将列表函数应用于pandas df中的文本生成器obj

我正在将“列表”函数应用于包含生成器对象的 pandas col,以尝试在 col 中显示所有生成器对象。应用时,col 返回空列表。“subject_verb_object_triples”是一个文本功能(https://chartbeat-labs.github.io/textacy/_modules/textacy/extract.html

打印(sp500news3)

预期的输出是元组,如下所示:

如何在我的数据框中显示预期的输出?

0 投票
1 回答
344 浏览

python - 如何在熊猫数据框列上实现功能

我正在尝试将该textacy.extract.subject_verb_object_triples函数应用于 pandas df 列。该函数返回空的生成器对象,而不是像这样应用时的 subject_verb_object_triples:

或者

我也试过:

如何在我的数据框列上实现该函数以返回正确的函数输出?

0 投票
0 回答
544 浏览

python - 无法在 python 3.0 中安装 textacy

我正在尝试安装 textacy 来执行 NLP 任务,但在尝试执行时出错:

点安装文本

在 Anaconda 提示符下。我得到的错误是

错误:需要 Microsoft Visual C++ 14.0。使用“Microsoft Visual C++ 构建工具”获取它:https ://visualstudio.microsoft.com/downloads/

请建议如何克服这个问题,因为我在许多其他 python 库中也面临同样的问题。

0 投票
1 回答
546 浏览

pip - 无法安装 spaCy 和 textacy 包

无法在 pip 环境和 windows 10 中的 python 3.7 中安装 spacy 和 textacy

我尝试安装 spacy 和 textacy 包,但收到错误消息。我搜索了错误,发现我需要安装visual c++ toolkit 2017。所以我做到了。之后,错误更改为新错误。我尝试了互联网上的所有解决方案(清除 pip 缓存,将 pip 升级到最新版本,在 windows 环境中创建路径等),但我仍然无法安装这两个包。

点安装 spaCy

新的错误是:
error: [WinError 2] The system cannot find the file specified msvc py_compiler msvc

在此处输入图像描述

在此处输入图像描述

0 投票
2 回答
1170 浏览

python - 在 Textacy 中计算单个单词的 TD-IDF

我正在尝试使用Textacy来计算标准语料库中单个单词的 TF-IDF 分数,但对我收到的结果有点不清楚。

我期待一个代表语料库中单词频率的浮点数。那么为什么我会收到包含 7 个结果的列表(?)?

“acculer”实际上是一个法语单词,因此期望英语语料库的结果为 0。

输出

问题的第二部分是如何将我自己的语料库提供给 Textacy 中的 TF-IDF 函数,尤其是。一个用不同的语言?

编辑

正如@Vishal 所提到的,我已经使用这一行记录了输出:

似乎提供的单词acculer已被拆分为字符。

(1)我怎样才能得到这个词对语料库的TF-IDF,而不是每个字符?

(2) 如何提供自己的语料库并将其作为参数指向?

(3) TF-IDF可以用在句子层面吗?即:这句话的术语相对于语料库的相对频率是多少。

0 投票
1 回答
148 浏览

python - textacy 安装 无缘无故被杀

我正在尝试在python 3.6 Docker 映像上安装textacy。无缘无故,进程最终崩溃并带有“Killed”语句

这是命令:

点安装文本

这是日志:

0 投票
2 回答
382 浏览

python - Textacy 关键字返回空列表

我想使用 textacy 提取关键术语,但我使用的函数 keyterms.key_terms.pagerank(doc) 只是返回一个空列表。

我已经尝试过相关功能,包括更长的 keyterms.key_terms_from_semantic_network(doc) 但没有成功。我也尝试使用比下面显示的更长的文本,但它仍然没有找到任何关键术语。textacy 中的其他功能似乎确实有效,因此它似乎只是 keyterms 类的问题。

我得到一个空列表,而不是一个包含术语和排名分数的元组列表。

0 投票
2 回答
2740 浏览

spacy - 我的问题是关于“模块'textacy'没有属性'Doc'”

找不到模块 'textacy' 没有属性 'Doc' 我正在尝试从 spacy 中提取动词短语,但没有这样的库。请帮助我如何使用 spacy 提取动词短语或形容词短语。我想做完整的浅解析。

模块'textacy'没有属性'Doc'

0 投票
1 回答
1197 浏览

python - 具有 textacy 或 spacy 的多处理

我正在尝试通过文本的并行化来加速处理大量文本。当我从多处理中使用 Pool 时,生成的文本语料库是空的。我不确定问题是否出在我使用 textacy 或 multiprocessing 范例的方式上?这是说明我的问题的示例:

Textacy 是基于 spacy 的。Spacy 不支持多线程,但应该可以在多个进程中运行。https://github.com/explosion/spaCy/issues/2075

根据@constt https://stackoverflow.com/a/58317741/4634344的伟大建议,将结果收集到语料库中适用于 n_docs= 10273 n_sentences= 302510 n_tokens= 2053129 的数据集。

对于更大的数据集(16000 个文档 3MM 令牌),我收到以下错误:

´ 我会调查,但如果您有直接的解决方案 - 非常感谢!