r - dplyr unnest_tokens 不工作

Question

我正在加载 5 核数据集之一

http://jmcauley.ucsd.edu/data/amazon/

使用

library(sparklyr)
library(dplyr)

config <- spark_config()
config$`sparklyr.shell.driver-memory` <- "2G"
sc = spark_connect(master = "local",config = config)
df=spark_read_json(sc = sc, name = "videos", path = "Path/to/reviews_Office_Products_5.json")

其中一个变量是一列文本评论，同样：

select(df,reviewText)

# 来源：懒惰查询 [?? ×1]

# 数据库：spark_connection reviewText

1 我大约在 1984 年左右购买了我的第一台 HP12C，它一直忠实地为我服务，直到 2002 年

2 “为什么这个迟来的评论？我觉得非常有义务分享我对这个老工人的看法

3 我有一台已经运行了 20 多年的 HP 48GX 和一台 HP 11

4 我最近开始做更多的金融工作，并开始寻找良好的时间价值-

5 对于简单的计算和贴现现金流，这个仍然是最好的。我用了

6 虽然我没有 MBA，但很难相信我学会了如何使用计算器

7 大约二十年前，自从 HP 12C 首次面世以来，我就一直拥有它。我'

8 为我的老板买了这个，因为他失去了他的。他喜欢这个计算器，不会

9 这是一个精心设计的简单计算器，可以处理典型的四函数数学。拉

10 我喜欢这个计算器，大数字和计算非常好，非常易于使用，让我的

# ... 更多行

我想将评论分成标记，每行包含一个单词，但事实证明这很困难。当我尝试使用函数 unnest_tokens 时，我收到以下错误消息：

library(stringr)
library(tidytext) 

Word_by_Word <- df %>% unnest_tokens(word, reviewText)

unnest_tokens_.default(., word, reviewText) 中的错误：unnest_tokens 期望输入的所有列都是原子向量（不是列表）

怎么了？如何在不使用命令“pull”并将数据强制转换为请求格式的情况下解决此问题？我无法按照提取 dplyr tbl 列作为向量中的建议提取数据或将数据转换为 tibble 格式，顺便说一句，因为如果数据库太大而我执行其中任何一项操作，那么计算机甚至会耗尽内存在增加 2G 限制并在具有大量内存的计算机上运行程序之后（这是使用 dplyr 的漏洞点）。

score 1 · Accepted Answer

看来您已经在内存中拥有数据帧。如果是这样，那么错误代码为您指明了方向。中的每个条目reviewText都是一个list，并且unnest_tokens()期望它们属于类vector。

尝试使用就地或通过unlist()转换字段。reviewTextmutate()

r - dplyr unnest_tokens 不工作

1 回答 1

Related

Reference