我有一个执行以下操作的 python 脚本。它逐行读取文本文件。每行的信息都必须记录在 DynamoDDB 表中。我处理每条摄取的行,然后像这样执行一次写入:
with open(fPath, 'r') as f:
for line in f:
# process line, extract data to be written into DDB into item_data
# also extract key
item = table.new_item(hash_key=key_from_line,attrs=item_data)
item.put()
我注意到有效吞吐量,即我每秒(平均)进行的写入次数远低于我在 AWS DDB 控制台上为表设置的最大吞吐量。现在,生产线处理步骤可能存在严重的低效率。但我想知道我是否也可以通过不同的方式写入表格来加快速度。例如,收集一组项目然后一次将它们全部写入是否有意义?如果是这样,有没有办法确定数组的最佳大小?还有其他简单的(也许不是那么简单的方法)可以加快写作速度吗?