问题标签 [tidytext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

279 问题

0 投票

1 回答

3389 浏览

r - tidytext 错误：无法将函数转换为 quosure

我开始使用 tidytext 来获取文本文件的基本词频，其中包含电子邮件集合和大量垃圾。

脚本的相关部分是：

错误：无法将函数转换为 quosure

你能给我定位吗？谢谢。 dput(text_tibble)的原始数据结果

r tidytext

2018-03-25T20:39:29.950

0 投票

1 回答

68 浏览

r - 从R中的文本文件中提取元素

我正在尝试在 R 中进行文本分析。我有一个具有以下结构的文本文件。

我想在 R 中提取以下元素（PD 和 TD），并保存到表中。

我已经尝试过了，但我无法正确。

提取 PD

提取 TD

我想要如下表格：

任何帮助，将不胜感激。谢谢

r tidyr tidyverse stringr tidytext

2018-04-04T10:23:07.520

0 投票

0 回答

515 浏览

r - 使用 ggplot 进行文本挖掘频率

我正在使用一个名为HappyDB的数据集进行课堂演示并分析词频的人口统计学差异。我使用 tidytext 进行大部分分析，并使用他们的在线指南来创建我的大部分视觉效果。但是，我在创建带有标签的单词的频率图时遇到了问题。我的数据集的结构与他们的不同，我认为我正在考虑它，但显然我没有。这是他们生成图表的示例代码（将 Jane Austen 与 Bronte 姐妹和 HG Wells 进行比较）

该代码生成此图：

我希望用我的数据集中的人口统计数据来模拟这一点，但不断出错。这是我的代码，它使用了我已经整理过的数据集：

但我不断收到此错误：

Error in log(x, base) : non-numeric argument to mathematical function

我尝试删除比例行，但这会导致一堆数据被删除，并且绘图看起来不像它应该的那样，并且没有线条、标签或颜色。我对 r 和一般的编码都很陌生，所以任何帮助表示赞赏。

r tidytext

2018-04-16T16:33:51.617

0 投票

0 回答

79 浏览

r - 通过 SSIS 运行时 R 包安装停止并出现以下错误：

这是我指定安装包的顺序。当我尝试通过 SSIS 运行脚本时，出现以下错误：

错误：“tidytext”的包或命名空间加载失败没有名为“dplyr”的包

软件包是否必须按特定顺序安装？无法找出正确的顺序。

r ssis dplyr tidytext

2018-04-19T12:32:12.930

0 投票

2 回答

1412 浏览

r - 计算 R data.frame 中的行数并存储为附加变量

我有一个返回两个列变量的数据框 - word1 和 word2 像这样：

我正在尝试向此 data.frame 添加两个额外的列变量，以便我的输出如下所示：

我从这里http://www.rpubs.com/pnice421/347328跟随一个例子

在“生成二元组”标题下，他们提供了以下代码作为实现此目的的一种方式，但我返回一个错误：

如果有人对我可能出错的地方有任何建议，将不胜感激！谢谢你。

r dplyr text-mining tidytext

2018-04-20T02:22:30.897

0 投票

2 回答

966 浏览

r - 使用 ggplot2 在条形图中绘制 Bigrams

我的数据如下所示：

我想将数据集中前 10 个或 15 个最常出现的二元组绘制到 ggplot2 中的条形图上，并让条形图与 y 轴上的标签水平运行。

非常感谢您对此的任何帮助！

谢谢

r ggplot2 text-mining tidytext

2018-04-20T11:04:08.093

0 投票

0 回答

184 浏览

r - 处理文本挖掘中的短语动词

短语动词在日常英语使用中非常重要。R中是否有任何库可以让我们处理它？我尝试了两种方法，但似乎无法处理

例如

我想出了一个（笨拙的）策略来处理短语动词：

结果是-1，表示负面情绪。有什么改进它的想法吗？是否有任何数据具有短语动词的情感得分？

r text-mining tidytext

2018-04-23T02:29:23.097

0 投票

1 回答

7172 浏览

r - 如何删除列中的特定单词

我有一个由与公司关联的几个国家办事处组成的列，我想在其中缩短 fx：中国国家办事处和孟加拉国国家办事处，仅中国或孟加拉国 - 换句话说，删除“办公室”和“国家”这两个词来自名为 Imp_Office 的列。

我尝试使用 tm-package，参考之前的帖子，但什么也没发生。

我写的：

我收到以下错误消息的地方：

我也尝试使用函数 readLines：

但这也无济于事

我已经考虑过使用其他字符串操作方法的可能性，但我不需要检测、替换或删除空格 - 所以我有点迷失在这里。

谢谢你。

r string tm tidytext

2018-04-23T16:19:12.610

0 投票

0 回答

423 浏览

r - 当我知道它是 TRUE 时，%in% 返回 FALSE

相关文件：

我正在研究一些自然语言处理，并尝试使用 %in% 检查来检查一个列表中的单词是否在另一个列表中。问题是，当我知道应该至少有几个 TRUE 返回时，它会将所有内容返回为 FALSE。我想知道问题是否与我正在使用的对象类型有关？虽然当我运行测试时，一切都是角色对象，所以我认为这不应该是一个问题。这是我的代码：

在这里，我找到了一种解决方法，但我觉得它在函数中添加了不必要的循环/步骤，并且比我想要的需要更多的计算能力：

如果有人对这些问题有任何提示，我将非常感谢听到他们。谢谢！

r nlp tidytext

2018-04-24T15:24:29.750

0 投票

1 回答

198 浏览

r - R：将文档术语计数的数据框转换为文档术语矩阵（dtm）

我已经有一个文档术语计数级别的数据框，注意文档和术语仅由整数索引，并且分数是加权连续数字，如果相关的话，例如：

但它目前是一个数据框，我想将其转换为 dtm 格式，以便使用一些 dtm-ready 功能（即 RNewsflow 的“documents.compare”功能）。

我一直在尝试通过以下方式使用“cast_dtm”：

其中“df”是上面示例的数据框，但出现以下错误：

r matrix tm tidytext

2018-04-25T23:05:29.543

1 2 3 4 5 6 7 8 9 10