我正在尝试使用 Pandas 的 to_sql 方法通过循环将多个 csv 文件上传到 SQL Server 数据库中的相应表。
fileLoc = r'C:\Users\hcole\Downloads\stats.csv\\'
dfArray = ['file1', 'file2', 'file3', 'file4']
for name in dfArray:
df = pd.read_csv(fileLoc + name + '.csv')
df.columns = df.columns.str.replace(' ', '')
df.to_sql(name, engine, if_exists = 'append', index = False)
我的连接字符串和数据库连接工作正常;我通过前几个(和小)文件就好了。但是,当我点击包含约 135k 行的 file4 时,将所有数据上传到数据库需要将近一个小时。在阅读了有关 to_sql 的“chunksize”参数的文档后,我尝试降级到 Pandas 0.22 版,但没有加快进程。
任何有关如何提高速度的提示将不胜感激。谢谢你。