问题标签 [textacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1596 浏览

python - 如何将 SVO 模式与 Textacy 匹配

你如何使用 Textacy 的pos_regex_match()方法来使用它们的伪正则表达式语法来查找主谓宾三元组?是的,我知道textacy.extract.subject_verb_object_triples(),但是这个函数非常不准确,而且发现的很少,所以我正在尝试构建更强大的东西。

对于文本:

我正在努力:

但它什么也没找到。我的模式有什么缺陷?我玩过它的几种变体,但没有任何匹配。

0 投票
1 回答
469 浏览

python - Python:如何将字典值与文件名匹配?

我对 Python 比较陌生,并且在以下方面苦苦挣扎:

我有一个包含大约 52,000 个字典的列表,其中包含 PDF 上的元数据(单独存储)。现在,我想将这些 PDF 中的 5,000 个与它们相应的元数据字典进行匹配,但我不知道该怎么做。

元数据:

PDF 文件名对应于“代码”值(即文件名是 5346、8372、3475_c、0294、5837_c 等,总是三个、四个或五个数字或三个、四个或五个数字,以 _c 为补充)。有没有一种方法可以将 PDF 与元数据字典列表中的正确字典匹配,使用 PDF 的文件名进行匹配?

其他解决方案也非常受欢迎!

编辑:我的目标是创建一个 Textacy 语料库,其中每个条目都是一个 Textacy Doc(即一个 PDF 的内容)及其相应的 Textacy 元数据(即 PDF 元数据)。

来自 Textacy 的文档: “[元数据] 流必须与textsor完全对齐docs,否则元数据将被错误分配。更具体地说,中的第一项metadatas将分配给textsor中的第一项docs,依此类推。” 这就是我想将 PDF 与正确的元数据匹配的原因。

0 投票
1 回答
912 浏览

python - 使用 Jupyter Notebook 的 Textacy:如何抑制多个错误警告?

我正在使用 Textacy(在 Spacy 之上)来处理许多文本片段。

具体来说,我使用 Textacy 的可读性分数。由于我有很多短文本,我收到一个警告,我需要禁止显示,否则它会使我的笔记本崩溃。

我的代码:

我的数据框的每个条目都收到此警告(这是预期的):

2017-09-23 19:44:23,283:警告:对于 n_sents < 30,烟雾分数可能不可靠

我怎么能压制它?我在文档和网络上都找不到任何提示。

在此先感谢您提供正确方向的任何提示。

0 投票
1 回答
997 浏览

python-3.x - Textacy 无法从 textacy.doc.Doc 类创建语料库

我只是在考虑使用数据集模块之外的数据的文本教程。我从数据框中获取了一些文本数据,并将其存储为字符串变量以供工作。

我已经使用 spacy 了一点,我知道这是创建 doc 对象的标准方法

哪个输出

所以我应该能够从这个文档文件中生成一个语料库,正如文档所说

但是即使我将正确的类型传递给函数,我也会收到此错误

我试图以相同的方式创建一个文本对象,但没有运气

我还尝试将文本参数用于语料库,将原始文本传递给它,但这会输出

有想法该怎么解决这个吗 ?

编辑 为了让文档形成多行并将其传递给语料库,这里是我正在使用的线程的数据框

因此,每个文本的文本都存储在“文本”列下,如果需要,每个文本都可以通过扬声器列绑定到扬声器。

目前我正在查看大写字母示例,但尚不完全清楚如何使用数据框进行拆分。

在这种情况下是否设置记录作为聊天哈希的过滤器

0 投票
1 回答
385 浏览

textacy - Textacy - 矢量化加权误差

我最近发现了 Textacy,当我浏览 API 参考指南时,我遇到了 Vectorizer 的错误。如果我从 API 参考中添加任何选项,我会得到一个 TypeError: unexpected keyword 参数。除了权重之外,我还收到其他选项的此错误。

我使用 pip 安装了 textacy,我在 Ubuntu 上使用 Python3。任何帮助表示赞赏。谢谢!

0 投票
0 回答
485 浏览

python - 在语料库上计算 TTR

我正在尝试使用每个说话者的整个词汇表上的引理来计算 Capitol Words 语料库的 TTR。

我还尝试对defaultdict每个条目进行洗牌,然后为每个发言者提供一个 TTR 百分比。到目前为止,我有上面的代码,但不知道如何修复它以便它工作......

0 投票
1 回答
3134 浏览

python-3.x - 使用 spacy 和 textacy。需要在原始推文的语料库中查找 tf-idf 分数,但无法导入文本向量化器

我是这些框架以及 NLP 的新手。我正在关注一个示例,该示例为我提供了以下代码片段来计算推文中所有标记的 tf-idf 分数。但是,我不断收到导入错误或未定义的 Vectorizer。

代码:

收到的错误:

我的环境

访问 textacy vectorizer 类的正确导入语句是什么?

0 投票
2 回答
581 浏览

python - 如何在 textacy 0.6.2 中初始化“Doc”?

尝试遵循 Python 2 文档中的简单Doc初始化不起作用:

对于一个字符串或一个字符串序列,这个简单的初始化应该是什么样的?

更新

传球吐出unicode(content)_textacy.Doc()

从安装 textacy 的那一刻起,imo 就已经很好了。

即使在安装之后cld2-cffi,尝试上面的代码也会抛出

0 投票
1 回答
89 浏览

python - 遍历 python 3 字符串列表并将每个项目与其他项目匹配并返回最大的匹配项

我有一个 python 列表。在这个列表中,我需要将每个项目与其他项目进行比较,并用最长的字符串替换较短的字符串。

编辑:我有一个使用 Spacy 模块获得的人名列表,它是实体提取。我得到一个列表,有时它是全名,有时是名称的一部分。我想规范化这个列表,所以它总是全名(或文章中最长的名字)。这将帮助我确定文章中最突出/提到的人是谁。

完整示例:

但是这样的列表也可以:

0 投票
2 回答
4223 浏览

python - ImportError:无法导入名称“常量”

我需要导入常量库,但它不工作......

错误:

我在 Windows 10 上使用 anaconda 3 并尝试使用 conda 安装此库:

但它仍然不起作用......