我正在尝试使用 MemSQL Extractor 在 Spark 作业中读取 CSV 文件,并使用 Transformer 进行一些扩充并使用 Java 加载到 MemSQL 数据库。
我看到有 memsql-spark 接口 jar,但没有找到任何有用的 Java API 文档或示例。
我已经开始编写提取器以从 CSV 读取,但我不知道如何进一步。
public Option<RDD<byte[]>> nextRDD(SparkContext sparkContext, UserExtractConfig config, long batchInterval, PhaseLogger logger) {
RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
RDD<byte[]> bytes = inputFile.map(ByteUtils.utf8StringToBytes(filePath), String.class); //compilation error
return bytes; //compilation error
}
如果有人能指出我开始的方向,将不胜感激......
谢谢...