6

在 RI 中有一个 spark 连接和一个 DataFrame 作为ddf.

library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")

由于它不是很多行,我想将其拉入内存以应用一些机器学习魔法。但是,似乎无法收集某些行。

df <- ddf %>% head %>% collect # works fine
df <- ddf %>% collect # doesn't work

第二行代码抛出Error in rawToChar(raw) : embedded nul in string:错误。它失败的列/行有一些字符串数据。由于head %>% collect作品表明某些行似乎失败,而其他行则按预期工作。

我该如何解决这个错误,有没有办法清理这个错误?错误实际上是什么意思?

4

0 回答 0