我正在尝试使用“spark_read_csv()”函数的“列”参数。我正在尝试使用 sparklyr 从 hdfs 导入 csv 文件,我想知道如何指定单个变量类或所有变量类。
require(sparklyr)
named_vct_colclasses <- c("character", "integer", "integer")
db_in <- spark_read_csv(sc, "spark_tbl_name", "path_to_file",
infer_schema = FALSE,
columns = named_vct_colclasses)
csv 已正确导入,但我无法强加列类。
我尝试过使用命名向量,但效果不佳。这是我想使用 spark_read_csv() 重现的常用 read.csv 命令
read.csv("path_to_file", colClasses = c("character", rep("integer", 2))
或者
read.csv("path_to_file", colClasses = c("var_name" = "character"))
谢谢