cassandra - spark-streaming：如何将流数据输出到 cassandra

Question

我正在使用 spark-streaming 阅读 kafka 流式消息。现在我想将 Cassandra 设置为我的输出。我在 cassandra "test_table" 中创建了一个表，其中包含 "key:text primary key" 和 "value:text" 列我已成功将数据映射到JavaDStream<Tuple2<String,String>> data如下所示：

JavaSparkContext sc = new JavaSparkContext("local[4]", "SparkStream",conf);
JavaStreamingContext jssc = new JavaStreamingContext(sc, new Duration(3000));

JavaPairReceiverInputDStream<String, String> messages = KafkaUtils.createStream(jssc, args[0], args[1], topicMap );
JavaDStream<Tuple2<String,String>> data = messages.map(new Function< Tuple2<String,String>, Tuple2<String,String> >() 
{
    public Tuple2<String,String> call(Tuple2<String, String> message)
    {
        return new Tuple2<String,String>( message._1(), message._2() );
    }
}
);

然后我创建了一个列表：

List<TestTable> list = new ArrayList<TestTable>();

其中 TestTable 是我的自定义类，具有与我的 Cassandra 表相同的结构，成员为“key”和“value”：

class TestTable
{
    String key;
    String val;

    public TestTable() {}

    public TestTable(String k, String v)
    {
        key=k;
        val=v;
    }

    public String getKey(){
        return key;
    }

    public void setKey(String k){
        key=k;
    }

    public String getVal(){
        return val;
    }

    public void setVal(String v){
        val=v;
    }

    public String toString(){
        return "Key:"+key+",Val:"+val;
    }
}

请建议一种如何将数据添加JavaDStream<Tuple2<String,String>> data到List<TestTable> list. 我这样做是为了以后可以使用

JavaRDD<TestTable> rdd = sc.parallelize(list); 
javaFunctions(rdd, TestTable.class).saveToCassandra("testkeyspace", "test_table");

将 RDD 数据保存到 Cassandra。

我试过这样编码：

messages.foreachRDD(new Function<Tuple2<String,String>, String>()
                        {
                            public List<TestTable> call(Tuple2<String,String> message)
                            {
                                String k = message._1();
                                String v = message._2();
                                TestTable tbl = new TestTable(k,v);
                                list.put(tbl);
                            }
                        }
                    );

但似乎发生了一些类型不匹配。请帮忙。

score 6 · Accepted Answer

假设这个程序的目的是将流数据从 kafka 保存到 Cassandra，则没有必要将JavaDStream<Tuple2<String,String>>数据转储到List<TestTable>列表中。

DataStax 的 Spark-Cassandra 连接器直接通过Spark Streaming 扩展支持此功能。

在上使用这样的扩展就足够了JavaDStream：

javaFunctions(data).writerBuilder("testkeyspace", "test_table", mapToRow(TestTable.class)).saveToCassandra();

而不是排空中间列表上的数据。

cassandra - spark-streaming：如何将流数据输出到 cassandra

1 回答 1

Related

Reference