apache-spark - MemSQL 火花作业

翻译自：https://stackoverflow.com/questions/34212098 2015-12-10T21:30:09.773

351 次

我正在尝试使用 MemSQL Extractor 在 Spark 作业中读取 CSV 文件，并使用 Transformer 进行一些扩充并使用 Java 加载到 MemSQL 数据库。

我看到有 memsql-spark 接口 jar，但没有找到任何有用的 Java API 文档或示例。

我已经开始编写提取器以从 CSV 读取，但我不知道如何进一步。

public Option<RDD<byte[]>> nextRDD(SparkContext sparkContext, UserExtractConfig config, long batchInterval, PhaseLogger logger) {
        RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
    RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);

    RDD<byte[]> bytes = inputFile.map(ByteUtils.utf8StringToBytes(filePath), String.class); //compilation error

    return bytes; //compilation error

}

如果有人能指出我开始的方向，将不胜感激......

谢谢...

apache-spark - MemSQL 火花作业

0 回答 0

Related

Reference