问题标签 [textacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 更有效地实现 Textacy / spacy 'subject_verb_object_triples'
我正在尝试从我的数据集上的 textacy 中实现“extract.subject_verb_object_triples”功能。但是,我编写的代码非常缓慢且占用大量内存。有没有更有效的实现方式?
样本数据 (sp500news)
python - 如何将列表函数应用于pandas df中的文本生成器obj
我正在将“列表”函数应用于包含生成器对象的 pandas col,以尝试在 col 中显示所有生成器对象。应用时,col 返回空列表。“subject_verb_object_triples”是一个文本功能(https://chartbeat-labs.github.io/textacy/_modules/textacy/extract.html)
打印(sp500news3)
预期的输出是元组,如下所示:
如何在我的数据框中显示预期的输出?
python - 如何在熊猫数据框列上实现功能
我正在尝试将该textacy.extract.subject_verb_object_triples
函数应用于 pandas df 列。该函数返回空的生成器对象,而不是像这样应用时的 subject_verb_object_triples:
或者
我也试过:
如何在我的数据框列上实现该函数以返回正确的函数输出?
python - 无法在 python 3.0 中安装 textacy
我正在尝试安装 textacy 来执行 NLP 任务,但在尝试执行时出错:
点安装文本
在 Anaconda 提示符下。我得到的错误是
错误:需要 Microsoft Visual C++ 14.0。使用“Microsoft Visual C++ 构建工具”获取它:https ://visualstudio.microsoft.com/downloads/
请建议如何克服这个问题,因为我在许多其他 python 库中也面临同样的问题。
pip - 无法安装 spaCy 和 textacy 包
无法在 pip 环境和 windows 10 中的 python 3.7 中安装 spacy 和 textacy
我尝试安装 spacy 和 textacy 包,但收到错误消息。我搜索了错误,发现我需要安装visual c++ toolkit 2017。所以我做到了。之后,错误更改为新错误。我尝试了互联网上的所有解决方案(清除 pip 缓存,将 pip 升级到最新版本,在 windows 环境中创建路径等),但我仍然无法安装这两个包。
点安装 spaCy
新的错误是:
error: [WinError 2] The system cannot find the file specified msvc py_compiler msvc
python - 在 Textacy 中计算单个单词的 TD-IDF
我正在尝试使用Textacy来计算标准语料库中单个单词的 TF-IDF 分数,但对我收到的结果有点不清楚。
我期待一个代表语料库中单词频率的浮点数。那么为什么我会收到包含 7 个结果的列表(?)?
“acculer”实际上是一个法语单词,因此期望英语语料库的结果为 0。
输出
问题的第二部分是如何将我自己的语料库提供给 Textacy 中的 TF-IDF 函数,尤其是。一个用不同的语言?
编辑
正如@Vishal 所提到的,我已经使用这一行记录了输出:
似乎提供的单词acculer
已被拆分为字符。
(1)我怎样才能得到这个词对语料库的TF-IDF,而不是每个字符?
(2) 如何提供自己的语料库并将其作为参数指向?
(3) TF-IDF可以用在句子层面吗?即:这句话的术语相对于语料库的相对频率是多少。
python - textacy 安装 无缘无故被杀
我正在尝试在python 3.6 Docker 映像上安装textacy。无缘无故,进程最终崩溃并带有“Killed”语句
这是命令:
点安装文本
这是日志:
python - Textacy 关键字返回空列表
我想使用 textacy 提取关键术语,但我使用的函数 keyterms.key_terms.pagerank(doc) 只是返回一个空列表。
我已经尝试过相关功能,包括更长的 keyterms.key_terms_from_semantic_network(doc) 但没有成功。我也尝试使用比下面显示的更长的文本,但它仍然没有找到任何关键术语。textacy 中的其他功能似乎确实有效,因此它似乎只是 keyterms 类的问题。
我得到一个空列表,而不是一个包含术语和排名分数的元组列表。
spacy - 我的问题是关于“模块'textacy'没有属性'Doc'”
找不到模块 'textacy' 没有属性 'Doc' 我正在尝试从 spacy 中提取动词短语,但没有这样的库。请帮助我如何使用 spacy 提取动词短语或形容词短语。我想做完整的浅解析。
模块'textacy'没有属性'Doc'
python - 具有 textacy 或 spacy 的多处理
我正在尝试通过文本的并行化来加速处理大量文本。当我从多处理中使用 Pool 时,生成的文本语料库是空的。我不确定问题是否出在我使用 textacy 或 multiprocessing 范例的方式上?这是说明我的问题的示例:
Textacy 是基于 spacy 的。Spacy 不支持多线程,但应该可以在多个进程中运行。https://github.com/explosion/spaCy/issues/2075
根据@constt https://stackoverflow.com/a/58317741/4634344的伟大建议,将结果收集到语料库中适用于 n_docs= 10273 n_sentences= 302510 n_tokens= 2053129 的数据集。
对于更大的数据集(16000 个文档 3MM 令牌),我收到以下错误:
´ 我会调查,但如果您有直接的解决方案 - 非常感谢!