问题标签 [textacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2921 浏览

python - 从警方报告中创建复杂、碎片化句子的主-动词-宾语模型

我对 spacy / textacy 还很陌生,而且我还有一项复杂的任务。非常感谢您的帮助。

简而言之,从“通过踢和推他来袭击护理人员”这样的句子中,我想确定所报告的虐待是否针对警察或其他工作人员(救护车、医院工作人员、交通管理员等)。

挑战是: - 官员写的语言不是标准的英语,而且句子有很多标点符号和其他错误。- 报告中经常省略主题,因此例如使用“textacy.extract.subject_verb_object_triples”不起作用,因为它找不到主题。(这里也不需要主题,因为我们已经知道该个人已被指控虐待,我们只想知道他们从所提供的文本中袭击了哪个类别的工人) - 文本可以包含许多提供其他上下文的句子或者它可能会在一个文本中列出对多种类型工人的多项虐待指控。

示例: 1. “确实喊叫、咒骂和威胁她的邻居,袭击了一名警察。” 2.“确实被逐出许可的场所,之后对他的妻子采取攻击性行为并推她。对门卫和其他人采取攻击性威胁的方式。拒绝逮捕。通过咬和踢来袭击警察。” 3.“被告当时确实在履行职责时打了 PC 史密斯,向他的脸猛击了一拳,但他没有受伤。” 4.“确实向目击者史密斯警员扔了手机”

我期望得到的是像 VERB,OBJECT (punch, PC Smith) 这样的东西,然后需要学习意味着是的,这是一名警察。复合对象可以是 PC(警察)、Sgt(萨金特)等

我试过这个:

但这仅在添加主题(我不需要)以及对象前面的“the”(护理人员)之后才有效。所以这句话变成了“被告确实通过踢和推他来袭击护理人员)。我有 55k 的陈述要开始,所以纠正语言是不可行的。

我该如何解决这个问题?谢谢

0 投票
1 回答
469 浏览

python - Spacy/Textacy 不从 .txt(文本)文件中读取文件内容

我正在尝试使用 Python(SpaCy/Textacy/Textblob)从文本文件中读取内容(博客),但到目前为止它一直是徒劳的。以下是我最近尝试过的代码:

我收到以下错误:

0 投票
3 回答
1816 浏览

python - pip install textacy 失败

我正在尝试安装 textacy 来执行 NLP 任务,但在尝试执行时出错:

代码开始运行,但一段时间后它失败并显示以下输出:

0 投票
2 回答
1062 浏览

python - Python Textacy pos_regex_matches 与匹配

我正在尝试用 python 在一个句子中查找动词来解决 NLP 问题。我在 stackoverflow 上找到了一个旧答案,它适用于已弃用的 pos_regex_matches。使用新的匹配功能我遇到了一个非常无聊的问题。新函数返回任何匹配,而不仅仅是最长的匹配(pos_regex_matches 会这样做)。

如您所见,模式是相同的,但匹配函数的模式是新格式。例如,旧的 pos_regex_matches 返回,was celebrating而新的匹配同时返回wasand was celebrating。有人遇到过同样的问题吗?是模式问题还是文本问题?

提前致谢

0 投票
1 回答
81 浏览

python - 在 textacy 中创建空的语料库

我想在 textacy 中创建一个空的语料库,然后用数据填充它

但是每次我尝试创建一个空的语料库时,我都无法保存它,而是出现此错误:

我尝试在创建语料库时不提供任何数据或不提供任何数据:

如果有人可以帮助我,那就太好了:)

0 投票
1 回答
957 浏览

python - Textacy 没有模块预处理或规范化空格

突然出现的文本问题

AttributeError:模块'textacy'没有属性'normalize_whitespace'

这发生在 Python 3.7

该脚本在过去一年中运行良好。前几天这个错误开始发生。我觉得我什么都试过了。该行对程序至关重要。

我创建了一个 python 3.6 env 和一个早期版本的 textacy。无法在那里导入 textacy,因为它说我没有缓存工具 - 我有。

有没有可以推荐的方法?

0 投票
2 回答
853 浏览

python - 如何改进 textacy.extract.semistructured_statements() 结果

对于这个项目,我使用了 Wikipedia、spacy 和 textacy.extract 模块。

我使用维基百科模块来抓取我设置主题的页面。它将返回其内容的字符串。

然后,我使用 textacy.extract.semistructured_statements() 过滤掉事实。它需要两个必需的参数。第一个是文档,第二个是实体。

出于测试目的,我尝试将主题设置为 Ubuntu 和比尔盖茨。


所以当我运行程序时,我会返回多个搜索 Ubuntu 的结果,但不是比尔盖茨。为什么会这样?如何改进我的代码以从 Wikipedia 页面中提取更多事实?


编辑:这是最终结果

Ubuntu: 在此处输入图像描述

比尔盖茨: 在此处输入图像描述

0 投票
1 回答
432 浏览

nlp - 使用 textacy/spacy 进行 NLP 总结

我想从这个文本中用一句话来生成一个摘要。我正在使用 textacy.py。这是我的代码:

我试过了

一切都按照书上的要求进行,但结果并不完美。我想要类似“Kasyapa 与 Kadru 和 Vinata 姐妹结婚”或“Kasyapa 给 Kadru 和 Vinata 的刺绣”之类的东西。你能建议我怎么做吗?或者建议我使用一些替代包?

0 投票
0 回答
187 浏览

python - UnicodeDecodeError:“charmap”编解码器无法解码位置 49 中的字节 0x81:用于文本

我正在使用 textacy 方法来获取同义词。

我收到以下错误

我试图在 read_csv 的第 162 行的 concept_net.py" 和第 96 行的 io\csv.py" 中强制执行 encoding='utf8',但这又给出了另一个错误

可以做什么?

0 投票
0 回答
53 浏览

python - 字符串列上的雾索引

我在 Pandas 数据框中有一列,每行(twits)包含多个文本字符串,我正在尝试使用函数创建雾索引.gunning_fog_index。这是我想做的

textacy.preprocessing.remove_punctuation() 使用Next清理数据使用Spacy doc 上textacy.make_spacy_doc()textacy.text_stats.TextStats()函数制作 spacy doc,然后使用.gunning_fog_index

这是我尝试过的:

我在使用时遇到了问题,textacy.preprocessing.remove_punctuation(df["twits"], marks=None)因为它不会覆盖整个列。我收到以下错误

AttributeError:“系列”对象没有属性“翻译”

由于 textacy 函数通过(i index from 1)仅查看一行来工作,因此textacy.preprocessing.remove_punctuation(df["twits"][1], marks=None)我尝试使用 for 循环,但这失败了。

我在想我可能能够将所有不同的参数传递到 for 循环中,但我不确定如何继续。有任何想法吗?