我需要从 PostgreSQL 数据库中读取和连接很多行(~500k)并将它们写入 MySQL 数据库。
我天真的方法看起来像这样
entrys = Entry.query.yield_per(500)
for entry in entrys:
for location in entry.locations:
mysql_location = MySQLLocation(entry.url)
mysql_location.id = location.id
mysql_location.entry_id = entry.id
[...]
mysql_location.city = location.city.name
mysql_location.county = location.county.name
mysql_location.state = location.state.name
mysql_location.country = location.country.name
db.session.add(mysql_location)
db.session.commit()
每个Entry
大约有 1 到 100 个Locations
。
这个脚本现在运行了大约 20 个小时,并且已经消耗了 > 4GB 的内存,因为所有内容都保存在内存中,直到会话提交。
通过我之前提交的尝试,我遇到了这样的问题。
如何提高查询性能?它需要变得更快,因为在接下来的几个月中行数将增长到大约 2500k。