问题标签 [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 创建虚拟变量后与 unnest_tokens 相反
当我在基于字符串“product”创建虚拟变量后嵌套标记化词列时,它似乎将“product”插入到“product”所在的原始行下方的新行中。
r - 带有句子开始和结束位置的 R unnest
R 新手。我使用tidytext::unnest_tokens
以下方法将长文本分解为单个句子
tidy_drugs <- drugstext.raw %>%
unnest_tokens(sentence, Section, token="sentences")
因此,我得到了一个 data.frame,其中所有句子都转换为行。
我想获得从长文本中未嵌套的每个句子的开始和结束位置。
这是长文本文件的示例。它来自药品标签。
所需的结果是具有三列的数据框
r - Tidytext:将单词的频率转换为百分比
我想将单词的频率转换为单词的百分比。这在我的代码中:
我试过添加scale_y_countinous
,但我似乎无法制作任何有意义的图表。
谢谢!
r - 如何使用 R Tidytext 加载文本以进行文本挖掘?
如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘?
我遇到了 Silge & Robinson “使用 R 进行文本挖掘:一种整洁的方法”(https://www.tidytextmining.com/),这对我的目的来说似乎很有希望。但我对 R 很陌生(试图为此目的学习它),所以我在一些非常基本的问题上遇到了挫折。
虽然我可以跟踪和重现这些示例,但它们大多从导入现有库(例如 janeaustenr 或 gutenbergr)开始,而我拥有的是一个包含 30 个 txt 文件的文件夹(每个文件都包含瑞典外交部长向议会提交的年度声明)。
我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库,然后是一个 DTM,然后我可以将它变成一个整洁的数据框,但我想必须有一个更简单的方法,直接从一个txt文件的文件夹到一个整洁的数据框。
r - R循环遍历ID
我想循环运行pairwise_count,我的输入看起来像图像中的表格。每个 ID 代表一个文本,行包含文本的句子。我对 for 循环的想法不起作用。有人可能有一个想法,该循环如何运行?
我的脚本输入(数据)如下表所示:
问候
托拜厄斯
r - R中unnest_tokens的对面
我有一个数据框,已在 R 中转换为整洁的文本格式,以消除停用词。我现在想将该数据框“整理”回其原始格式。
unnest_tokens 的相反/反向命令是什么?我在这个论坛上提出的另一个类似问题中检查了答案,我可以执行以下操作:
如果我想使用 purrr 中的 map 函数在经过整理的形式处理后将文本恢复为原始形式。
首先,让我们从原始文本转换为经过整理的格式。
文字现在很整齐!但是我们可以把它弄乱,回到某种类似于它的原始形式的东西。我通常使用 tidyr 中的 nest,然后使用 purrr 中的一些 map 函数来解决这个问题。
如果我将其标记为 n 克,其中 n 可以是 2 或 3,请有人帮我更改上面的代码。
我想做的是:
第 1 步:将文本拆分为三元组
第 2 步:查看三元组,看看哪个有意义(这里我需要手动检查它,我只会替换那些对我有意义的)
步骤:3 将原文中的这些三元组替换为一个由_连接的单词
第 4 步:对二元组重复上述操作
第 5 步:然后再次标记化
r - 在 tibble 中查看超过 10 行时遇到问题
首先 - 我是编程和 R 的初学者,如果这是一个愚蠢的问题,请原谅。我无法查看从以下代码生成的 tibble 中的十多行。
下面的代码旨在查找书中最常见的单词。我得到了我想要的结果,但是我如何查看超过 10 行的数据。据我所知,它没有被保存为我可以调用的数据框。
r - ggplot中各个方面之间的条形顺序不同
我正在浏览网站https://www.tidytextmining.com并尝试使用奥斯汀图书数据集。我正在尝试绘制六本书中最常见的单词,并让每个情节的各个条按降序排列。我已经修改了代码以绘制第 3.3 节中显示的 tf-idf,但我无法让这些图看起来相同(让单词频率的条形按降序排列)。可重现的代码和输出如下所示。
r - 用字符串中的单个数字替换数字范围
有没有办法用字符串中的单个数字替换数字范围?数字的范围可以是 nn,最有可能在 1-15 左右,也可以是 4-10。
范围可以用 a) 表示 -
或与单词 b) 例如:to, bis, jusqu'à
结果应该看起来像
我发现了这个:用某个数字替换数字范围,但不能在 R 中真正使用它。
r - Wordcloud 标题未在 R 中显示/渲染
因此,我使用 tidy 原则进行了情绪分析。我想将结果绘制在比较云中(正面 VS 负面情绪)。
这是我的代码:
但是,似乎出了点问题,因为标题(正面和负面)没有显示或呈现。我已经更改了 scales 和 title.size 但没有什么可以解决这个问题。
有人有想法吗?