1

我正在尝试使用 MemSQL Extractor 在 Spark 作业中读取 CSV 文件,并使用 Transformer 进行一些扩充并使用 Java 加载到 MemSQL 数据库。

我看到有 memsql-spark 接口 jar,但没有找到任何有用的 Java API 文档或示例。

我已经开始编写提取器以从 CSV 读取,但我不知道如何进一步。

public Option<RDD<byte[]>> nextRDD(SparkContext sparkContext, UserExtractConfig config, long batchInterval, PhaseLogger logger) {
        RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
    RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);

    RDD<byte[]> bytes = inputFile.map(ByteUtils.utf8StringToBytes(filePath), String.class); //compilation error

    return bytes; //compilation error

}

如果有人能指出我开始的方向,将不胜感激......

谢谢...

4

0 回答 0