下面是一个关于如何从 Kafka 读取数据并将其流式传输到增量表中的工作示例。我使用的是 Spark 3.0.1 和 delta-core 0.7.0(如果您使用的是 Spark 2.4 版本,则需要使用 0.6.0)。
将数据从 Kafka 流式传输到 Delta 表中
val spark = SparkSession.builder()
.appName("Kafka2Delta")
.master("local[*]")
.getOrCreate()
// in production this should be a more reliable location such as HDFS
val deltaPath = "file:///tmp/delta/table"
val df = spark.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("subscribe", "test")
.option("startingOffsets", "earliest")
.option("failOnDataLoss", "false")
.load()
.selectExpr("CAST(value AS STRING) as value")
val query: StreamingQuery = df.writeStream
.format("delta")
.option("checkpointLocation", "/path/to/sparkCheckpoint")
.start(deltaPath)
query.awaitTermination()
为了测试,我简单地生成了字符“a”、“b”、“c”和“d”作为 Kafka 主题的值。显然,如果 Kafka 输入数据是 JSON 字符串,您可以构建一些更复杂的数据帧。
检查 Delta 表中的数据
val table = spark.read
.format("delta")
.load(deltaPath)
.createOrReplaceTempView("testTable")
spark.sql("SELECT * FROM testTable").show(false)
// result
+-----+
|value|
+-----+
|a |
|b |
|c |
|d |
+-----+
在 deltaPath 中创建的文件
>/tmp/delta/table$ ll
total 44
drwxrwxr-x 3 x x 4096 Jan 11 17:12 ./
drwxrwxr-x 3 x x 4096 Jan 11 17:10 ../
drwxrwxr-x 2 x x 4096 Jan 11 17:12 _delta_log/
-rw-r--r-- 1 x x 414 Jan 11 17:12 part-00000-0a0ae7fb-2995-4da4-8284-1ab85899fe9c-c000.snappy.parquet
-rw-r--r-- 1 x x 12 Jan 11 17:12 .part-00000-0a0ae7fb-2995-4da4-8284-1ab85899fe9c-c000.snappy.parquet.crc
-rw-r--r-- 1 x x 306 Jan 11 17:12 part-00000-37eb0bb2-cd27-42a4-9db3-b79cb046b638-c000.snappy.parquet
-rw-r--r-- 1 x x 12 Jan 11 17:12 .part-00000-37eb0bb2-cd27-42a4-9db3-b79cb046b638-c000.snappy.parquet.crc
-rw-r--r-- 1 x x 414 Jan 11 17:12 part-00000-8d6b4236-1a12-4054-b016-3db7a007cbab-c000.snappy.parquet
-rw-r--r-- 1 x x 12 Jan 11 17:12 .part-00000-8d6b4236-1a12-4054-b016-3db7a007cbab-c000.snappy.parquet.crc
-rw-r--r-- 1 x x 407 Jan 11 17:12 part-00000-d2612eaa-3f48-4708-bf90-31dd3d83f124-c000.snappy.parquet
-rw-r--r-- 1 x x 12 Jan 11 17:12 .part-00000-d2612eaa-3f48-4708-bf90-31dd3d83f124-c000.snappy.parquet.crc