我正在尝试使用 pydocumentdb 使用 Python 将 CSV 文档自动上传到 Azure Cosmos SQL API DB。我正在使用 pandas 执行一些数据预处理,然后将每一行转换为 JSON 格式。最后,我为 CSV 的每个转换行创建一个文档。
原始 csv 大约 431 MB 和 5173620 个寄存器(行),这意味着我需要将每个寄存器(行)作为新文档摄取。我发现 createDocument() 函数非常慢(完成所有寄存器需要一天多的时间)。虽然单分区 Cosmos db 限制为 10000 RU,但 Count all documents 查询花费 29025.92 RU,结果似乎不准确。
我想知道是否有办法提高 createDocument 函数的性能。另外我想知道如何在 createCollection 函数上定义 RU。欢迎任何提示。
# create document
coll_link = createColl(client, db_link, coll_id)
... preprocess a pandas Dataframe df...
# create a collection
for index, row in df.iterrows():
doc = row.to_dict()
client.CreateDocument(coll_link, doc)