“textacy”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

1596 浏览

python - 如何将 SVO 模式与 Textacy 匹配

你如何使用 Textacy 的pos_regex_match()方法来使用它们的伪正则表达式语法来查找主谓宾三元组？是的，我知道textacy.extract.subject_verb_object_triples()，但是这个函数非常不准确，而且发现的很少，所以我正在尝试构建更强大的东西。

对于文本：

我正在努力：

但它什么也没找到。我的模式有什么缺陷？我玩过它的几种变体，但没有任何匹配。

2017-07-02T00:48:50.747

0 投票

1 回答

469 浏览

python - Python：如何将字典值与文件名匹配？

我对 Python 比较陌生，并且在以下方面苦苦挣扎：

我有一个包含大约 52,000 个字典的列表，其中包含 PDF 上的元数据（单独存储）。现在，我想将这些 PDF 中的 5,000 个与它们相应的元数据字典进行匹配，但我不知道该怎么做。

元数据：

PDF 文件名对应于“代码”值（即文件名是 5346、8372、3475_c、0294、5837_c 等，总是三个、四个或五个数字或三个、四个或五个数字，以 _c 为补充）。有没有一种方法可以将 PDF 与元数据字典列表中的正确字典匹配，使用 PDF 的文件名进行匹配？

其他解决方案也非常受欢迎！

编辑：我的目标是创建一个 Textacy 语料库，其中每个条目都是一个 Textacy Doc（即一个 PDF 的内容）及其相应的 Textacy 元数据（即 PDF 元数据）。

来自 Textacy 的文档： “[元数据] 流必须与textsor完全对齐docs，否则元数据将被错误分配。更具体地说，中的第一项metadatas将分配给textsor中的第一项docs，依此类推。” 这就是我想将 PDF 与正确的元数据匹配的原因。

python dictionary pdf spacy textacy

2017-07-17T09:40:21.940

0 投票

1 回答

912 浏览

python - 使用 Jupyter Notebook 的 Textacy：如何抑制多个错误警告？

我正在使用 Textacy（在 Spacy 之上）来处理许多文本片段。

具体来说，我使用 Textacy 的可读性分数。由于我有很多短文本，我收到一个警告，我需要禁止显示，否则它会使我的笔记本崩溃。

我的代码：

我的数据框的每个条目都收到此警告（这是预期的）：

2017-09-23 19:44:23,283：警告：对于 n_sents < 30，烟雾分数可能不可靠

我怎么能压制它？我在文档和网络上都找不到任何提示。

在此先感谢您提供正确方向的任何提示。

python nlp jupyter-notebook spacy textacy

2017-09-23T17:54:43.437

0 投票

1 回答

997 浏览

python-3.x - Textacy 无法从 textacy.doc.Doc 类创建语料库

我只是在考虑使用数据集模块之外的数据的文本教程。我从数据框中获取了一些文本数据，并将其存储为字符串变量以供工作。

我已经使用 spacy 了一点，我知道这是创建 doc 对象的标准方法

哪个输出

所以我应该能够从这个文档文件中生成一个语料库，正如文档所说

但是即使我将正确的类型传递给函数，我也会收到此错误

我试图以相同的方式创建一个文本对象，但没有运气

我还尝试将文本参数用于语料库，将原始文本传递给它，但这会输出

有想法该怎么解决这个吗？

编辑为了让文档形成多行并将其传递给语料库，这里是我正在使用的线程的数据框

因此，每个文本的文本都存储在“文本”列下，如果需要，每个文本都可以通过扬声器列绑定到扬声器。

目前我正在查看大写字母示例，但尚不完全清楚如何使用数据框进行拆分。

在这种情况下是否设置记录作为聊天哈希的过滤器

python-3.x pandas corpus spacy textacy

2017-12-11T15:03:54.580

0 投票

1 回答

385 浏览

textacy - Textacy - 矢量化加权误差

我最近发现了 Textacy，当我浏览 API 参考指南时，我遇到了 Vectorizer 的错误。如果我从 API 参考中添加任何选项，我会得到一个 TypeError: unexpected keyword 参数。除了权重之外，我还收到其他选项的此错误。

我使用 pip 安装了 textacy，我在 Ubuntu 上使用 Python3。任何帮助表示赞赏。谢谢！

textacy

2018-03-12T14:42:34.010

0 投票

0 回答

485 浏览

python - 在语料库上计算 TTR

我正在尝试使用每个说话者的整个词汇表上的引理来计算 Capitol Words 语料库的 TTR。

我还尝试对defaultdict每个条目进行洗牌，然后为每个发言者提供一个 TTR 百分比。到目前为止，我有上面的代码，但不知道如何修复它以便它工作......

python nlp spacy textacy

2018-03-13T02:56:03.460

0 投票

1 回答

3134 浏览

python-3.x - 使用 spacy 和 textacy。需要在原始推文的语料库中查找 tf-idf 分数，但无法导入文本向量化器

我是这些框架以及 NLP 的新手。我正在关注一个示例，该示例为我提供了以下代码片段来计算推文中所有标记的 tf-idf 分数。但是，我不断收到导入错误或未定义的 Vectorizer。

代码：

收到的错误：

我的环境

访问 textacy vectorizer 类的正确导入语句是什么？

python-3.x tf-idf spacy textacy

2018-04-20T15:01:45.370

0 投票

2 回答

581 浏览

python - 如何在 textacy 0.6.2 中初始化“Doc”？

尝试遵循 Python 2 文档中的简单Doc初始化不起作用：

对于一个字符串或一个字符串序列，这个简单的初始化应该是什么样的？

更新：

传球吐出unicode(content)_textacy.Doc()

从安装 textacy 的那一刻起，imo 就已经很好了。

即使在安装之后cld2-cffi，尝试上面的代码也会抛出

python nlp textacy

2018-07-19T20:21:06.297

0 投票

1 回答

89 浏览

python - 遍历 python 3 字符串列表并将每个项目与其他项目匹配并返回最大的匹配项

我有一个 python 列表。在这个列表中，我需要将每个项目与其他项目进行比较，并用最长的字符串替换较短的字符串。

编辑：我有一个使用 Spacy 模块获得的人名列表，它是实体提取。我得到一个列表，有时它是全名，有时是名称的一部分。我想规范化这个列表，所以它总是全名（或文章中最长的名字）。这将帮助我确定文章中最突出/提到的人是谁。

完整示例：

但是这样的列表也可以：

python python-3.x spacy textacy

2018-08-17T01:28:25.380

0 投票

2 回答

4223 浏览

python - ImportError：无法导入名称“常量”

我需要导入常量库，但它不工作......

错误：

我在 Windows 10 上使用 anaconda 3 并尝试使用 conda 安装此库：

但它仍然不起作用......

python anaconda constants textacy

2018-10-22T09:43:30.203

问题标签 [textacy]

Reference