问题标签 [textacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将 SVO 模式与 Textacy 匹配
你如何使用 Textacy 的pos_regex_match()
方法来使用它们的伪正则表达式语法来查找主谓宾三元组?是的,我知道textacy.extract.subject_verb_object_triples()
,但是这个函数非常不准确,而且发现的很少,所以我正在尝试构建更强大的东西。
对于文本:
我正在努力:
但它什么也没找到。我的模式有什么缺陷?我玩过它的几种变体,但没有任何匹配。
python - Python:如何将字典值与文件名匹配?
我对 Python 比较陌生,并且在以下方面苦苦挣扎:
我有一个包含大约 52,000 个字典的列表,其中包含 PDF 上的元数据(单独存储)。现在,我想将这些 PDF 中的 5,000 个与它们相应的元数据字典进行匹配,但我不知道该怎么做。
元数据:
PDF 文件名对应于“代码”值(即文件名是 5346、8372、3475_c、0294、5837_c 等,总是三个、四个或五个数字或三个、四个或五个数字,以 _c 为补充)。有没有一种方法可以将 PDF 与元数据字典列表中的正确字典匹配,使用 PDF 的文件名进行匹配?
其他解决方案也非常受欢迎!
编辑:我的目标是创建一个 Textacy 语料库,其中每个条目都是一个 Textacy Doc(即一个 PDF 的内容)及其相应的 Textacy 元数据(即 PDF 元数据)。
来自 Textacy 的文档:
“[元数据] 流必须与texts
or完全对齐docs
,否则元数据将被错误分配。更具体地说,中的第一项metadatas
将分配给texts
or中的第一项docs
,依此类推。”
这就是我想将 PDF 与正确的元数据匹配的原因。
python - 使用 Jupyter Notebook 的 Textacy:如何抑制多个错误警告?
我正在使用 Textacy(在 Spacy 之上)来处理许多文本片段。
具体来说,我使用 Textacy 的可读性分数。由于我有很多短文本,我收到一个警告,我需要禁止显示,否则它会使我的笔记本崩溃。
我的代码:
我的数据框的每个条目都收到此警告(这是预期的):
2017-09-23 19:44:23,283:警告:对于 n_sents < 30,烟雾分数可能不可靠
我怎么能压制它?我在文档和网络上都找不到任何提示。
在此先感谢您提供正确方向的任何提示。
python-3.x - Textacy 无法从 textacy.doc.Doc 类创建语料库
我只是在考虑使用数据集模块之外的数据的文本教程。我从数据框中获取了一些文本数据,并将其存储为字符串变量以供工作。
我已经使用 spacy 了一点,我知道这是创建 doc 对象的标准方法
哪个输出
所以我应该能够从这个文档文件中生成一个语料库,正如文档所说
但是即使我将正确的类型传递给函数,我也会收到此错误
我试图以相同的方式创建一个文本对象,但没有运气
我还尝试将文本参数用于语料库,将原始文本传递给它,但这会输出
有想法该怎么解决这个吗 ?
编辑 为了让文档形成多行并将其传递给语料库,这里是我正在使用的线程的数据框
因此,每个文本的文本都存储在“文本”列下,如果需要,每个文本都可以通过扬声器列绑定到扬声器。
目前我正在查看大写字母示例,但尚不完全清楚如何使用数据框进行拆分。
在这种情况下是否设置记录作为聊天哈希的过滤器
textacy - Textacy - 矢量化加权误差
我最近发现了 Textacy,当我浏览 API 参考指南时,我遇到了 Vectorizer 的错误。如果我从 API 参考中添加任何选项,我会得到一个 TypeError: unexpected keyword 参数。除了权重之外,我还收到其他选项的此错误。
我使用 pip 安装了 textacy,我在 Ubuntu 上使用 Python3。任何帮助表示赞赏。谢谢!
python - 在语料库上计算 TTR
我正在尝试使用每个说话者的整个词汇表上的引理来计算 Capitol Words 语料库的 TTR。
我还尝试对defaultdict
每个条目进行洗牌,然后为每个发言者提供一个 TTR 百分比。到目前为止,我有上面的代码,但不知道如何修复它以便它工作......
python-3.x - 使用 spacy 和 textacy。需要在原始推文的语料库中查找 tf-idf 分数,但无法导入文本向量化器
我是这些框架以及 NLP 的新手。我正在关注一个示例,该示例为我提供了以下代码片段来计算推文中所有标记的 tf-idf 分数。但是,我不断收到导入错误或未定义的 Vectorizer。
代码:
收到的错误:
我的环境
访问 textacy vectorizer 类的正确导入语句是什么?
python - 如何在 textacy 0.6.2 中初始化“Doc”?
尝试遵循 Python 2 文档中的简单Doc
初始化不起作用:
对于一个字符串或一个字符串序列,这个简单的初始化应该是什么样的?
更新:
传球吐出unicode(content)
_textacy.Doc()
从安装 textacy 的那一刻起,imo 就已经很好了。
即使在安装之后cld2-cffi
,尝试上面的代码也会抛出
python - 遍历 python 3 字符串列表并将每个项目与其他项目匹配并返回最大的匹配项
我有一个 python 列表。在这个列表中,我需要将每个项目与其他项目进行比较,并用最长的字符串替换较短的字符串。
编辑:我有一个使用 Spacy 模块获得的人名列表,它是实体提取。我得到一个列表,有时它是全名,有时是名称的一部分。我想规范化这个列表,所以它总是全名(或文章中最长的名字)。这将帮助我确定文章中最突出/提到的人是谁。
完整示例:
但是这样的列表也可以:
python - ImportError:无法导入名称“常量”
我需要导入常量库,但它不工作......
错误:
我在 Windows 10 上使用 anaconda 3 并尝试使用 conda 安装此库:
但它仍然不起作用......