问题标签 [tidytext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
197 浏览

r - 创建虚拟变量后与 unnest_tokens 相反

当我在基于字符串“product”创建虚拟变量后嵌套标记化词列时,它似乎将“product”插入到“product”所在的原始行下方的新行中。

带下划线的产品应该在上面的行中

0 投票
1 回答
627 浏览

r - 带有句子开始和结束位置的 R unnest

R 新手。我使用tidytext::unnest_tokens以下方法将长文本分解为单个句子

tidy_drugs <- drugstext.raw %>% unnest_tokens(sentence, Section, token="sentences")

因此,我得到了一个 data.frame,其中所有句子都转换为行。

我想获得从长文本中未嵌套的每个句子的开始和结束位置。

这是长文本文件的示例。它来自药品标签。

所需的结果是具有三列的数据框

数据框

0 投票
0 回答
84 浏览

r - Tidytext:将单词的频率转换为百分比

我想将单词的频率转换为单词的百分比。这在我的代码中:

我试过添加scale_y_countinous,但我似乎无法制作任何有意义的图表。

谢谢!

0 投票
1 回答
1869 浏览

r - 如何使用 R Tidytext 加载文本以进行文本挖掘?

如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘?

我遇到了 Silge & Robinson “使用 R 进行文本挖掘:一种整洁的方法”(https://www.tidytextmining.com/),这对我的目的来说似乎很有希望。但我对 R 很陌生(试图为此目的学习它),所以我在一些非常基本的问题上遇到了挫折。

虽然我可以跟踪和重现这些示例,但它们大多从导入现有库(例如 janeaustenr 或 gutenbergr)开始,而我拥有的是一个包含 30 个 txt 文件的文件夹(每个文件都包含瑞典外交部长向议会提交的年度声明)。

我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库,然后是一个 DTM,然后我可以将它变成一个整洁的数据框,但我想必须有一个更简单的方法,直接从一个txt文件的文件夹到一个整洁的数据框。

0 投票
1 回答
65 浏览

r - R循环遍历ID

我想循环运行pairwise_count,我的输入看起来像图像中的表格。每个 ID 代表一个文本,行包含文本的句子。我对 for 循环的想法不起作用。有人可能有一个想法,该循环如何运行?

这是我的输入

我的脚本输入(数据)如下表所示:

问候

托拜厄斯

0 投票
1 回答
1067 浏览

r - R中unnest_tokens的对面

我有一个数据框,已在 R 中转换为整洁的文本格式,以消除停用词。我现在想将该数据框“整理”回其原始格式。

unnest_tokens 的相反/反向命令是什么?我在这个论坛上提出的另一个类似问题中检查了答案,我可以执行以下操作:

如果我想使用 purrr 中的 map 函数在经过整理的形式处理后将文本恢复为原始形式。

首先,让我们从原始文本转换为经过整理的格式。

文字现在很整齐!但是我们可以把它弄乱,回到某种类似于它的原始形式的东西。我通常使用 tidyr 中的 nest,然后使用 purrr 中的一些 map 函数来解决这个问题。

如果我将其标记为 n 克,其中 n 可以是 2 或 3,请有人帮我更改上面的代码。

我想做的是:

第 1 步:将文本拆分为三元组

第 2 步:查看三元组,看看哪个有意义(这里我需要手动检查它,我只会替换那些对我有意义的)

步骤:3 将原文中的这些三元组替换为一个由_连接的单词

第 4 步:对二元组重复上述操作

第 5 步:然后再次标记化

0 投票
3 回答
21635 浏览

r - 在 tibble 中查看超过 10 行时遇到问题

首先 - 我是编程和 R 的初学者,如果这是一个愚蠢的问题,请原谅。我无法查看从以下代码生成的 tibble 中的十多行。

下面的代码旨在查找书中最常见的单词。我得到了我想要的结果,但是我如何查看超过 10 行的数据。据我所知,它没有被保存为我可以调用的数据框。

0 投票
0 回答
123 浏览

r - ggplot中各个方面之间的条形顺序不同

我正在浏览网站https://www.tidytextmining.com并尝试使用奥斯汀图书数据集。我正在尝试绘制六本书中最常见的单词,并让每个情节的各个条按降序排列。我已经修改了代码以绘制第 3.3 节中显示的 tf-idf,但我无法让这些图看起来相同(让单词频率的条形按降序排列)。可重现的代码和输出如下所示。

生成的 Rplot

0 投票
3 回答
782 浏览

r - 用字符串中的单个数字替换数字范围

有没有办法用字符串中的单个数字替换数字范围?数字的范围可以是 nn,最有可能在 1-15 左右,也可以是 4-10。

范围可以用 a) 表示 -

或与单词 b) 例如:to, bis, jusqu'à

结果应该看起来像

我发现了这个:用某个数字替换数字范围,但不能在 R 中真正使用它。

0 投票
2 回答
2205 浏览

r - Wordcloud 标题未在 R 中显示/渲染

因此,我使用 tidy 原则进行了情绪分析。我想将结果绘制在比较云中(正面 VS 负面情绪)。

这是我的代码:

但是,似乎出了点问题,因为标题(正面和负面)没有显示或呈现。我已经更改了 scales 和 title.size 但没有什么可以解决这个问题。

有人有想法吗?