在用 Python 处理后,我试图将一些 XML 数据导入我的 MySQL 数据库。为简单起见,我通过一个使用 SQLAlchemy 访问我的数据库的脚本来完成这一切。
XML 文件有大约 80,000 个条目,我使用xml.etree.cElementTree
'siterparse
方法处理它,并在使用它们后删除节点以将内存使用量保持在 20mb 左右。
一旦我包含 SQLAlchemy 并开始将内容添加到数据库中,我的内存使用量就会以每秒约 10mb 的速度上升,直到脚本耗尽我的所有内存并且操作系统将其杀死。
这基本上是我的代码的样子:
index = 0
for element in iterate_xml():
...
index += 1
session.add(Model(**data))
if index % 1000 == 0:
session.flush()
session.commit()
我不确定还能尝试什么。定期的.flush()
,.commit()
确实有一点帮助,但它们并不能解决问题。
SQLAlchemy 不是完成这项任务的正确工具吗?
我像这样设置 SQLAlchemy:
Base = declarative_base()
engine = create_engine(config.SQLALCHEMY_DATABASE_URI, echo=False)
Session = sessionmaker(bind=engine, autoflush=False, expire_on_commit=False)
session = Session()
我的桌子看起来像这样:
columns = []
for name, datatype in structure.iteritems():
if isinstance(datatype, int):
datatype = String(datatype or 20)
column = Column(name, datatype)
columns.append(column)
metadata = MetaData(bind=engine)
table = Table('table_name', metadata,
Column('id', Integer, primary_key=True),
*columns
)
metadata.drop_all(engine)
metadata.create_all(engine)
class MyTable(Base):
__tablename__ = 'table_name'
__table_args__ = {
'autoload': True,
'autoload_with': engine
}
structure
是一个将列名映射到数据类型的字典(它是从 XML 生成的):
structure = {
'column_name': SQLAlchemyDataType,
...
}