我正在加载 5 核数据集之一
http://jmcauley.ucsd.edu/data/amazon/
使用
library(sparklyr)
library(dplyr)
config <- spark_config()
config$`sparklyr.shell.driver-memory` <- "2G"
sc = spark_connect(master = "local",config = config)
df=spark_read_json(sc = sc, name = "videos", path = "Path/to/reviews_Office_Products_5.json")
其中一个变量是一列文本评论,同样:
select(df,reviewText)
# 来源:懒惰查询 [?? ×1]
# 数据库:spark_connection reviewText
1 我大约在 1984 年左右购买了我的第一台 HP12C,它一直忠实地为我服务,直到 2002 年
2 “为什么这个迟来的评论?我觉得非常有义务分享我对这个老工人的看法
3 我有一台已经运行了 20 多年的 HP 48GX 和一台 HP 11
4 我最近开始做更多的金融工作,并开始寻找良好的时间价值-
5 对于简单的计算和贴现现金流,这个仍然是最好的。我用了
6 虽然我没有 MBA,但很难相信我学会了如何使用计算器
7 大约二十年前,自从 HP 12C 首次面世以来,我就一直拥有它。我'
8 为我的老板买了这个,因为他失去了他的。他喜欢这个计算器,不会
9 这是一个精心设计的简单计算器,可以处理典型的四函数数学。拉
10 我喜欢这个计算器,大数字和计算非常好,非常易于使用,让我的
# ... 更多行
我想将评论分成标记,每行包含一个单词,但事实证明这很困难。当我尝试使用函数 unnest_tokens 时,我收到以下错误消息:
library(stringr)
library(tidytext)
Word_by_Word <- df %>% unnest_tokens(word, reviewText)
unnest_tokens_.default(., word, reviewText) 中的错误:unnest_tokens 期望输入的所有列都是原子向量(不是列表)
怎么了?如何在不使用命令“pull”并将数据强制转换为请求格式的情况下解决此问题?我无法按照 提取 dplyr tbl 列作为向量中的建议提取数据或将数据转换为 tibble 格式,顺便说一句,因为如果数据库太大而我执行其中任何一项操作,那么计算机甚至会耗尽内存在增加 2G 限制并在具有大量内存的计算机上运行程序之后(这是使用 dplyr 的漏洞点)。