问题标签 [tidytext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3389 浏览

r - tidytext 错误:无法将函数转换为 quosure

我开始使用 tidytext 来获取文本文件的基本词频,其中包含电子邮件集合和大量垃圾。

脚本的相关部分是:

错误:无法将函数转换为 quosure

你能给我定位吗?谢谢。 dput(text_tibble)的原始数据结果

0 投票
1 回答
68 浏览

r - 从R中的文本文件中提取元素

我正在尝试在 R 中进行文本分析。我有一个具有以下结构的文本文件。

我想在 R 中提取以下元素(PD 和 TD),并保存到表中。

我已经尝试过了,但我无法正确。

提取 PD

提取 TD

我想要如下表格:

任何帮助,将不胜感激。谢谢

0 投票
0 回答
515 浏览

r - 使用 ggplot 进行文本挖掘频率

我正在使用一个名为HappyDB的数据集进行课堂演示并分析词频的人口统计学差异。我使用 tidytext 进行大部分分析,并使用他们的在线指南来创建我的大部分视觉效果。但是,我在创建带有标签的单词的频率图时遇到了问题。我的数据集的结构与他们的不同,我认为我正在考虑它,但显然我没有。这是他们生成图表的示例代码(将 Jane Austen 与 Bronte 姐妹和 HG Wells 进行比较)

该代码生成此图:

在此处输入图像描述

我希望用我的数据集中的人口统计数据来模拟这一点,但不断出错。这是我的代码,它使用了我已经整理过的数据集:

但我不断收到此错误:

Error in log(x, base) : non-numeric argument to mathematical function

我尝试删除比例行,但这会导致一堆数据被删除,并且绘图看起来不像它应该的那样,并且没有线条、标签或颜色。我对 r 和一般的编码都很陌生,所以任何帮助表示赞赏。

0 投票
0 回答
79 浏览

r - 通过 SSIS 运行时 R 包安装停止并出现以下错误:

这是我指定安装包的顺序。当我尝试通过 SSIS 运行脚本时,出现以下错误:

错误:“tidytext”的包或命名空间加载失败没有名为“dplyr”的包

软件包是否必须按特定顺序安装?无法找出正确的顺序。

0 投票
2 回答
1412 浏览

r - 计算 R data.frame 中的行数并存储为附加变量

我有一个返回两个列变量的数据框 - word1 和 word2 像这样:

我正在尝试向此 data.frame 添加两个额外的列变量,以便我的输出如下所示:

我从这里http://www.rpubs.com/pnice421/347328跟随一个例子

在“生成二元组”标题下,他们提供了以下代码作为实现此目的的一种方式,但我返回一个错误:

如果有人对我可能出错的地方有任何建议,将不胜感激!谢谢你。

0 投票
2 回答
966 浏览

r - 使用 ggplot2 在条形图中绘制 Bigrams

我的数据如下所示:

我想将数据集中前 10 个或 15 个最常出现的二元组绘制到 ggplot2 中的条形图上,并让条形图与 y 轴上的标签水平运行。

非常感谢您对此的任何帮助!

谢谢

0 投票
0 回答
184 浏览

r - 处理文本挖掘中的短语动词

短语动词在日常英语使用中非常重要。R中是否有任何库可以让我们处理它?我尝试了两种方法,但似乎无法处理

例如

我想出了一个(笨拙的)策略来处理短语动词:

结果是-1,表示负面情绪。有什么改进它的想法吗?是否有任何数据具有短语动词的情感得分?

0 投票
1 回答
7172 浏览

r - 如何删除列中的特定单词

我有一个由与公司关联的几个国家办事处组成的列,我想在其中缩短 fx:中国国家办事处和孟加拉国国家办事处,仅中国或孟加拉国 - 换句话说,删除“办公室”和“国家”这两个词来自名为 Imp_Office 的列。

我尝试使用 tm-package,参考之前的帖子,但什么也没发生。

我写的:

我收到以下错误消息的地方:

我也尝试使用函数 readLines:

但这也无济于事

我已经考虑过使用其他字符串操作方法的可能性,但我不需要检测、替换或删除空格 - 所以我有点迷失在这里。

谢谢你。

0 投票
0 回答
423 浏览

r - 当我知道它是 TRUE 时,%in% 返回 FALSE

相关文件:

大佬

积极的

我正在研究一些自然语言处理,并尝试使用 %in% 检查来检查一个列表中的单词是否在另一个列表中。问题是,当我知道应该至少有几个 TRUE 返回时,它会将所有内容返回为 FALSE。我想知道问题是否与我正在使用的对象类型有关?虽然当我运行测试时,一切都是角色对象,所以我认为这不应该是一个问题。这是我的代码:

在这里,我找到了一种解决方法,但我觉得它在函数中添加了不必要的循环/步骤,并且比我想要的需要更多的计算能力:

如果有人对这些问题有任何提示,我将非常感谢听到他们。谢谢!

0 投票
1 回答
198 浏览

r - R:将文档术语计数的数据框转换为文档术语矩阵(dtm)

我已经有一个文档术语计数级别的数据框,注意文档和术语仅由整数索引,并且分数是加权连续数字,如果相关的话,例如:

但它目前是一个数据框,我想将其转换为 dtm 格式,以便使用一些 dtm-ready 功能(即 RNewsflow 的“documents.compare”功能)。

我一直在尝试通过以下方式使用“cast_dtm”:

其中“df”是上面示例的数据框,但出现以下错误: