问题标签 [tidytext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

279 问题

0 投票

1 回答

197 浏览

r - 创建虚拟变量后与 unnest_tokens 相反

当我在基于字符串“product”创建虚拟变量后嵌套标记化词列时，它似乎将“product”插入到“product”所在的原始行下方的新行中。

带下划线的产品应该在上面的行中

r tidytext

2018-02-20T18:27:13.277

0 投票

1 回答

627 浏览

r - 带有句子开始和结束位置的 R unnest

R 新手。我使用tidytext::unnest_tokens以下方法将长文本分解为单个句子

tidy_drugs <- drugstext.raw %>% unnest_tokens(sentence, Section, token="sentences")

因此，我得到了一个 data.frame，其中所有句子都转换为行。

我想获得从长文本中未嵌套的每个句子的开始和结束位置。

这是长文本文件的示例。它来自药品标签。

所需的结果是具有三列的数据框

数据框

r text-mining tidytext

2018-02-23T15:29:02.153

0 投票

0 回答

84 浏览

r - Tidytext：将单词的频率转换为百分比

我想将单词的频率转换为单词的百分比。这在我的代码中：

我试过添加scale_y_countinous，但我似乎无法制作任何有意义的图表。

谢谢！

r ggplot2 sentiment-analysis tidytext

2018-03-01T08:46:54.743

0 投票

1 回答

1869 浏览

r - 如何使用 R Tidytext 加载文本以进行文本挖掘？

如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘？

我遇到了 Silge & Robinson “使用 R 进行文本挖掘：一种整洁的方法”（https://www.tidytextmining.com/），这对我的目的来说似乎很有希望。但我对 R 很陌生（试图为此目的学习它），所以我在一些非常基本的问题上遇到了挫折。

虽然我可以跟踪和重现这些示例，但它们大多从导入现有库（例如 janeaustenr 或 gutenbergr）开始，而我拥有的是一个包含 30 个 txt 文件的文件夹（每个文件都包含瑞典外交部长向议会提交的年度声明）。

我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库，然后是一个 DTM，然后我可以将它变成一个整洁的数据框，但我想必须有一个更简单的方法，直接从一个txt文件的文件夹到一个整洁的数据框。

r loading text-mining tidytext

2018-03-02T19:37:14.307

0 投票

1 回答

65 浏览

r - R循环遍历ID

我想循环运行pairwise_count，我的输入看起来像图像中的表格。每个 ID 代表一个文本，行包含文本的句子。我对 for 循环的想法不起作用。有人可能有一个想法，该循环如何运行？

这是我的输入

我的脚本输入（数据）如下表所示：

问候

托拜厄斯

r rapidminer tidytext

2018-03-03T18:35:16.337

0 投票

1 回答

1067 浏览

r - R中unnest_tokens的对面

我有一个数据框，已在 R 中转换为整洁的文本格式，以消除停用词。我现在想将该数据框“整理”回其原始格式。

unnest_tokens 的相反/反向命令是什么？我在这个论坛上提出的另一个类似问题中检查了答案，我可以执行以下操作：

如果我想使用 purrr 中的 map 函数在经过整理的形式处理后将文本恢复为原始形式。

首先，让我们从原始文本转换为经过整理的格式。

文字现在很整齐！但是我们可以把它弄乱，回到某种类似于它的原始形式的东西。我通常使用 tidyr 中的 nest，然后使用 purrr 中的一些 map 函数来解决这个问题。

如果我将其标记为 n 克，其中 n 可以是 2 或 3，请有人帮我更改上面的代码。

我想做的是：

第 1 步：将文本拆分为三元组

第 2 步：查看三元组，看看哪个有意义（这里我需要手动检查它，我只会替换那些对我有意义的）

步骤：3 将原文中的这些三元组替换为一个由_连接的单词

第 4 步：对二元组重复上述操作

第 5 步：然后再次标记化

r tidytext

2018-03-05T20:04:32.180

0 投票

3 回答

21635 浏览

r - 在 tibble 中查看超过 10 行时遇到问题

首先 - 我是编程和 R 的初学者，如果这是一个愚蠢的问题，请原谅。我无法查看从以下代码生成的 tibble 中的十多行。

下面的代码旨在查找书中最常见的单词。我得到了我想要的结果，但是我如何查看超过 10 行的数据。据我所知，它没有被保存为我可以调用的数据框。

r dplyr tidyverse tibble tidytext

2018-03-06T02:05:54.603

0 投票

0 回答

123 浏览

r - ggplot中各个方面之间的条形顺序不同

我正在浏览网站https://www.tidytextmining.com并尝试使用奥斯汀图书数据集。我正在尝试绘制六本书中最常见的单词，并让每个情节的各个条按降序排列。我已经修改了代码以绘制第 3.3 节中显示的 tf-idf，但我无法让这些图看起来相同（让单词频率的条形按降序排列）。可重现的代码和输出如下所示。

生成的 Rplot

r ggplot2 dplyr tidytext

2018-03-06T19:42:19.297

0 投票

3 回答

782 浏览

r - 用字符串中的单个数字替换数字范围

有没有办法用字符串中的单个数字替换数字范围？数字的范围可以是 nn，最有可能在 1-15 左右，也可以是 4-10。

范围可以用 a) 表示 -

或与单词 b) 例如：to, bis, jusqu'à

结果应该看起来像

我发现了这个：用某个数字替换数字范围，但不能在 R 中真正使用它。

r text replace tm tidytext

2018-03-18T03:12:28.097

0 投票

2 回答

2205 浏览

r - Wordcloud 标题未在 R 中显示/渲染

因此，我使用 tidy 原则进行了情绪分析。我想将结果绘制在比较云中（正面 VS 负面情绪）。

这是我的代码：

但是，似乎出了点问题，因为标题（正面和负面）没有显示或呈现。我已经更改了 scales 和 title.size 但没有什么可以解决这个问题。

有人有想法吗？

r text-mining sentiment-analysis word-cloud tidytext

2018-03-19T11:29:31.623

1 2 3 4 5 6 7 8 9 10

问题标签 [tidytext]

Reference