apache-spark - AWS Glue 仅从 Dynamo DB 中读取选定的记录

问问题 2021-04-20T20:18:13.677

41 次

以下代码正在读取完整的 dynamo DB 表。有什么办法，我们可以读取选定的行（给定一组有限的分区列值）

import sys
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.utils import getResolvedOptions

args = getResolvedOptions(sys.argv, ["JOB_NAME"])
glue_context= GlueContext(SparkContext.getOrCreate())
job = Job(glue_context)
job.init(args["JOB_NAME"], args)

dyf = glue_context.create_dynamic_frame.from_options(
    connection_type="dynamodb",
    connection_options={
        "dynamodb.input.tableName": "test_source",
        "dynamodb.throughput.read.percent": "1.0",
        "dynamodb.splits": "100"
    }
)

apache-spark - AWS Glue 仅从 Dynamo DB 中读取选定的记录

0 回答 0

Related

Reference