问题标签 [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在tidytext中对文档中的元素进行排序
正如您在右侧看到的图例,我需要将其重新排序为 1,2,3,...64,而不是 1,10,11...,8。我的术语文档矩阵如下。请给我一些想法如何重新排列代码。
r - 整洁的文本:从以下术语-文档矩阵计算 Zipf 定律
我尝试了来自http://tidytextmining.com/tfidf.html的代码。我的结果可以在这张图片中看到。
我的问题是:如何重写代码以产生词频和排名之间的负关系?
以下是术语-文档矩阵。任何意见都受到高度赞赏。
r - 主题建模:LDA、每个主题中的词频和 Wordcloud
问题:如何计算和编码每个主题中单词的频率?我的目标是从每个主题创建“词云”。
PS>我对wordcloud没有问题。
从代码中,
谢谢(我尽量使问题尽可能简洁,所以如果您需要更多详细信息,我可以添加更多。)
r - tf-idf 文档术语矩阵和 LDA:R 中的错误消息
我们可以将 tf-idf 文档术语矩阵输入到潜在狄利克雷分配 (LDA) 中吗?如果是,如何?
它在我的情况下不起作用,并且 LDA 函数需要“词频”文档术语矩阵。
谢谢
(我尽可能简洁地提出一个问题。所以,如果您需要更多详细信息,我可以添加
r - get_sentiments 函数中的错误
有没有人在 R 中使用“tidytextmining”进行情绪分析? 整洁的文本挖掘
我正在使用RV 3.4.1,并且这段代码出现以下错误。
错误 - get_sentiments(“afinn”)中的错误:找不到函数“get_sentiments”
我安装了正确的软件包和库参考。我错过了什么?
r - 如何使用整洁的文本使用二元组和三元组
我正在尝试使用 tidytext 同时使用二元组和三元组。我可以使用什么代码让令牌查找 2 和 3 个单词。
这是仅使用二元组的代码:
r - dplyr unnest_tokens 不工作
我正在加载 5 核数据集之一
http://jmcauley.ucsd.edu/data/amazon/
使用
其中一个变量是一列文本评论,同样:
# 来源:懒惰查询 [?? ×1]
# 数据库:spark_connection reviewText
1 我大约在 1984 年左右购买了我的第一台 HP12C,它一直忠实地为我服务,直到 2002 年
2 “为什么这个迟来的评论?我觉得非常有义务分享我对这个老工人的看法
3 我有一台已经运行了 20 多年的 HP 48GX 和一台 HP 11
4 我最近开始做更多的金融工作,并开始寻找良好的时间价值-
5 对于简单的计算和贴现现金流,这个仍然是最好的。我用了
6 虽然我没有 MBA,但很难相信我学会了如何使用计算器
7 大约二十年前,自从 HP 12C 首次面世以来,我就一直拥有它。我'
8 为我的老板买了这个,因为他失去了他的。他喜欢这个计算器,不会
9 这是一个精心设计的简单计算器,可以处理典型的四函数数学。拉
10 我喜欢这个计算器,大数字和计算非常好,非常易于使用,让我的
# ... 更多行
我想将评论分成标记,每行包含一个单词,但事实证明这很困难。当我尝试使用函数 unnest_tokens 时,我收到以下错误消息:
unnest_tokens_.default(., word, reviewText) 中的错误:unnest_tokens 期望输入的所有列都是原子向量(不是列表)
怎么了?如何在不使用命令“pull”并将数据强制转换为请求格式的情况下解决此问题?我无法按照 提取 dplyr tbl 列作为向量中的建议提取数据或将数据转换为 tibble 格式,顺便说一句,因为如果数据库太大而我执行其中任何一项操作,那么计算机甚至会耗尽内存在增加 2G 限制并在具有大量内存的计算机上运行程序之后(这是使用 dplyr 的漏洞点)。
tidytext - 带有正面和负面情绪的tidytext单词
我一直在使用情绪数据集,发现 bing 和 nrc 数据集包含一些既有正面情绪又有负面情绪的词。
** bing – 三个带有正面和负面情绪的词 **
** nrc – 81 个带有正面和负面情绪的词 **
我很好奇我是否做错了什么,或者一个词如何在单个源数据集中同时具有消极和积极的情绪。处理这些情况的标准做法是什么?
谢谢!
r - 我可以结合 pairwise_cor 和 pairwise_count 来获得每对单词的 phi 系数和出现次数吗?
我是 R 新手,我正在使用 widyr 进行文本挖掘。我成功地使用了这里找到的方法来获取每个文本部分中同时出现的单词及其 phi 系数的列表。
代码如下:
我知道我还可以使用以下代码生成包含同时出现的单词及其出现次数的数据框:
我需要的是一个表,其中包含 phi 系数和每对单词的出现次数。我一直在研究 pairwise_cor 和 pairwise_count 但仍然不知道如何组合它们。如果我理解正确,连接只考虑一列进行匹配,所以我不能可靠地使用常规连接,因为在 item1 列中可能有多个具有相同单词的对。
这可能使用widyr吗?如果没有,是否有另一个包可以让我这样做?
这是完整的代码:
我想添加pairwise_count,但我需要它与phi系数一起使用。
谢谢!
r - 使用 tidytext 将字数大小作为层添加到同现网络图上的节点大小
我有兴趣使用与第 8.2.2 节David Robinson 和 Julia Silge 的 Tidy Text 挖掘书中所示类似的共现网络图,例如此图,但我希望节点的大小发生变化取决于该术语在数据中出现的次数:
上面的图表是用以下代码建立的:
我一直在玩,geom_node_point(aes(size = ??))
但我不知道如何配置代码来做到这一点。对我来说,部分问题是该函数graph_from_data_frame()
将数据框变成了一个看起来相当复杂的对象。