问题标签 [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - tidytext 错误:无法将函数转换为 quosure
我开始使用 tidytext 来获取文本文件的基本词频,其中包含电子邮件集合和大量垃圾。
脚本的相关部分是:
错误:无法将函数转换为 quosure
你能给我定位吗?谢谢。 dput(text_tibble)的原始数据结果
r - 从R中的文本文件中提取元素
我正在尝试在 R 中进行文本分析。我有一个具有以下结构的文本文件。
我想在 R 中提取以下元素(PD 和 TD),并保存到表中。
我已经尝试过了,但我无法正确。
提取 PD
提取 TD
我想要如下表格:
任何帮助,将不胜感激。谢谢
r - 使用 ggplot 进行文本挖掘频率
我正在使用一个名为HappyDB的数据集进行课堂演示并分析词频的人口统计学差异。我使用 tidytext 进行大部分分析,并使用他们的在线指南来创建我的大部分视觉效果。但是,我在创建带有标签的单词的频率图时遇到了问题。我的数据集的结构与他们的不同,我认为我正在考虑它,但显然我没有。这是他们生成图表的示例代码(将 Jane Austen 与 Bronte 姐妹和 HG Wells 进行比较)
该代码生成此图:
我希望用我的数据集中的人口统计数据来模拟这一点,但不断出错。这是我的代码,它使用了我已经整理过的数据集:
但我不断收到此错误:
Error in log(x, base) : non-numeric argument to mathematical function
我尝试删除比例行,但这会导致一堆数据被删除,并且绘图看起来不像它应该的那样,并且没有线条、标签或颜色。我对 r 和一般的编码都很陌生,所以任何帮助表示赞赏。
r - 通过 SSIS 运行时 R 包安装停止并出现以下错误:
这是我指定安装包的顺序。当我尝试通过 SSIS 运行脚本时,出现以下错误:
错误:“tidytext”的包或命名空间加载失败没有名为“dplyr”的包
软件包是否必须按特定顺序安装?无法找出正确的顺序。
r - 计算 R data.frame 中的行数并存储为附加变量
我有一个返回两个列变量的数据框 - word1 和 word2 像这样:
我正在尝试向此 data.frame 添加两个额外的列变量,以便我的输出如下所示:
我从这里http://www.rpubs.com/pnice421/347328跟随一个例子
在“生成二元组”标题下,他们提供了以下代码作为实现此目的的一种方式,但我返回一个错误:
如果有人对我可能出错的地方有任何建议,将不胜感激!谢谢你。
r - 使用 ggplot2 在条形图中绘制 Bigrams
我的数据如下所示:
我想将数据集中前 10 个或 15 个最常出现的二元组绘制到 ggplot2 中的条形图上,并让条形图与 y 轴上的标签水平运行。
非常感谢您对此的任何帮助!
谢谢
r - 处理文本挖掘中的短语动词
短语动词在日常英语使用中非常重要。R中是否有任何库可以让我们处理它?我尝试了两种方法,但似乎无法处理
例如
我想出了一个(笨拙的)策略来处理短语动词:
结果是-1,表示负面情绪。有什么改进它的想法吗?是否有任何数据具有短语动词的情感得分?
r - 如何删除列中的特定单词
我有一个由与公司关联的几个国家办事处组成的列,我想在其中缩短 fx:中国国家办事处和孟加拉国国家办事处,仅中国或孟加拉国 - 换句话说,删除“办公室”和“国家”这两个词来自名为 Imp_Office 的列。
我尝试使用 tm-package,参考之前的帖子,但什么也没发生。
我写的:
我收到以下错误消息的地方:
我也尝试使用函数 readLines:
但这也无济于事
我已经考虑过使用其他字符串操作方法的可能性,但我不需要检测、替换或删除空格 - 所以我有点迷失在这里。
谢谢你。
r - R:将文档术语计数的数据框转换为文档术语矩阵(dtm)
我已经有一个文档术语计数级别的数据框,注意文档和术语仅由整数索引,并且分数是加权连续数字,如果相关的话,例如:
但它目前是一个数据框,我想将其转换为 dtm 格式,以便使用一些 dtm-ready 功能(即 RNewsflow 的“documents.compare”功能)。
我一直在尝试通过以下方式使用“cast_dtm”:
其中“df”是上面示例的数据框,但出现以下错误: