问题标签 [textacy]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

34 问题

0 投票

1 回答

1496 浏览

python - 更有效地实现 Textacy / spacy 'subject_verb_object_triples'

我正在尝试从我的数据集上的 textacy 中实现“extract.subject_verb_object_triples”功能。但是，我编写的代码非常缓慢且占用大量内存。有没有更有效的实现方式？

样本数据 (sp500news)

2018-12-27T13:11:42.923

0 投票

1 回答

282 浏览

python - 如何将列表函数应用于pandas df中的文本生成器obj

我正在将“列表”函数应用于包含生成器对象的 pandas col，以尝试在 col 中显示所有生成器对象。应用时，col 返回空列表。“subject_verb_object_triples”是一个文本功能（https://chartbeat-labs.github.io/textacy/_modules/textacy/extract.html）

打印（sp500news3）

预期的输出是元组，如下所示：

如何在我的数据框中显示预期的输出？

python pandas nlp spacy textacy

2019-02-04T14:00:52.820

0 投票

1 回答

344 浏览

python - 如何在熊猫数据框列上实现功能

我正在尝试将该textacy.extract.subject_verb_object_triples函数应用于 pandas df 列。该函数返回空的生成器对象，而不是像这样应用时的 subject_verb_object_triples：

或者

我也试过：

如何在我的数据框列上实现该函数以返回正确的函数输出？

python pandas nlp spacy textacy

2019-02-04T16:25:28.967

0 投票

0 回答

544 浏览

python - 无法在 python 3.0 中安装 textacy

我正在尝试安装 textacy 来执行 NLP 任务，但在尝试执行时出错：

点安装文本

在 Anaconda 提示符下。我得到的错误是

错误：需要 Microsoft Visual C++ 14.0。使用“Microsoft Visual C++ 构建工具”获取它：https ://visualstudio.microsoft.com/downloads/

请建议如何克服这个问题，因为我在许多其他 python 库中也面临同样的问题。

python nlp anaconda natural-language-processing textacy

2019-03-02T04:19:57.510

0 投票

1 回答

546 浏览

pip - 无法安装 spaCy 和 textacy 包

无法在 pip 环境和 windows 10 中的 python 3.7 中安装 spacy 和 textacy

我尝试安装 spacy 和 textacy 包，但收到错误消息。我搜索了错误，发现我需要安装visual c++ toolkit 2017。所以我做到了。之后，错误更改为新错误。我尝试了互联网上的所有解决方案（清除 pip 缓存，将 pip 升级到最新版本，在 windows 环境中创建路径等），但我仍然无法安装这两个包。

点安装 spaCy

新的错误是：
error: [WinError 2] The system cannot find the file specified msvc py_compiler msvc

在此处输入图像描述

pip windows-10 spacy python-3.7 textacy

2019-03-26T15:19:07.250

0 投票

2 回答

1170 浏览

python - 在 Textacy 中计算单个单词的 TD-IDF

我正在尝试使用Textacy来计算标准语料库中单个单词的 TF-IDF 分数，但对我收到的结果有点不清楚。

我期待一个代表语料库中单词频率的浮点数。那么为什么我会收到包含 7 个结果的列表（？）？

“acculer”实际上是一个法语单词，因此期望英语语料库的结果为 0。

输出

问题的第二部分是如何将我自己的语料库提供给 Textacy 中的 TF-IDF 函数，尤其是。一个用不同的语言？

编辑

正如@Vishal 所提到的，我已经使用这一行记录了输出：

似乎提供的单词acculer已被拆分为字符。

（1）我怎样才能得到这个词对语料库的TF-IDF，而不是每个字符？

(2) 如何提供自己的语料库并将其作为参数指向？

(3) TF-IDF可以用在句子层面吗？即：这句话的术语相对于语料库的相对频率是多少。

python machine-learning nlp spacy textacy

2019-04-19T16:19:04.420

0 投票

1 回答

148 浏览

python - textacy 安装无缘无故被杀

我正在尝试在python 3.6 Docker 映像上安装textacy。无缘无故，进程最终崩溃并带有“Killed”语句

这是命令：

点安装文本

这是日志：

python docker textacy

2019-05-15T14:27:28.943

0 投票

2 回答

382 浏览

python - Textacy 关键字返回空列表

我想使用 textacy 提取关键术语，但我使用的函数 keyterms.key_terms.pagerank(doc) 只是返回一个空列表。

我已经尝试过相关功能，包括更长的 keyterms.key_terms_from_semantic_network(doc) 但没有成功。我也尝试使用比下面显示的更长的文本，但它仍然没有找到任何关键术语。textacy 中的其他功能似乎确实有效，因此它似乎只是 keyterms 类的问题。

我得到一个空列表，而不是一个包含术语和排名分数的元组列表。

python nlp spacy textacy

2019-05-30T20:51:00.500

0 投票

2 回答

2740 浏览

spacy - 我的问题是关于“模块'textacy'没有属性'Doc'”

找不到模块 'textacy' 没有属性 'Doc' 我正在尝试从 spacy 中提取动词短语，但没有这样的库。请帮助我如何使用 spacy 提取动词短语或形容词短语。我想做完整的浅解析。

模块'textacy'没有属性'Doc'

spacy textacy

2019-06-23T01:00:28.973

0 投票

1 回答

1197 浏览

python - 具有 textacy 或 spacy 的多处理

我正在尝试通过文本的并行化来加速处理大量文本。当我从多处理中使用 Pool 时，生成的文本语料库是空的。我不确定问题是否出在我使用 textacy 或 multiprocessing 范例的方式上？这是说明我的问题的示例：

Textacy 是基于 spacy 的。Spacy 不支持多线程，但应该可以在多个进程中运行。https://github.com/explosion/spaCy/issues/2075

根据@constt https://stackoverflow.com/a/58317741/4634344的伟大建议，将结果收集到语料库中适用于 n_docs= 10273 n_sentences= 302510 n_tokens= 2053129 的数据集。

对于更大的数据集（16000 个文档 3MM 令牌），我收到以下错误：

´ 我会调查，但如果您有直接的解决方案 - 非常感谢！

python multiprocessing spacy pool textacy

2019-10-08T22:05:36.747

1 2 3 4 5 6 7 8 9 10

问题标签 [textacy]

样本数据 (sp500news)

Reference