python - 如何加快熊猫 to_sql

Question

我正在尝试使用 pandas to_sql 将数据上传到 MS Azure Sql 数据库，这需要很长时间。我经常在睡觉前运行它并在早上醒来，它已经完成但花了几个小时，如果出现错误，我无法解决它。这是我的代码：

params = urllib.parse.quote_plus(
'Driver=%s;' % driver +
'Server=%s,1433;' % server +
'Database=%s;' % database +
'Uid=%s;' % username +
'Pwd={%s};' % password +
'Encrypt=yes;' +
'TrustServerCertificate=no;'
)

conn_str = 'mssql+pyodbc:///?odbc_connect=' + params
engine = create_engine(conn_str)

@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()
        
connection = engine.connect()
connection

然后我为 sql 摄取运行此命令：

master_data.to_sql('table_name', engine, chunksize=500, if_exists='append', method='multi',index=False)

我已经玩过块大小，甜蜜点似乎是 100，考虑到我通常尝试一次上传 800,000-2,000,000 条记录，这还不够快。如果我将其增加超过该值，我将收到一个似乎仅与块大小有关的错误。

OperationalError: (pyodbc.OperationalError) ('08S01', '[08S01] [Microsoft][ODBC Driver 17 for SQL Server]Communication link failure (0) (SQLExecDirectW)')

score 1 · Accepted Answer

不确定您的问题是否已解决，但确实想在此处提供答案，以便为 Python 特定信息提供 Azure SQL 数据库库以及一些有用的资源来调查和解决此问题（如果适用）。

使用pyodbc直接查询 Azure SQL 数据库的示例：快速入门：使用 Python 查询 Azure SQL 数据库单实例和托管实例

使用 Pandas 数据框的示例：如何从 Pandas 数据框读取和写入 Azure SQL 数据库

main.py

"""Read write to Azure SQL database from pandas"""
import pyodbc
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

# 1. Constants
AZUREUID = 'myuserid'                                    # Azure SQL database userid
AZUREPWD = '************'                                # Azure SQL database password
AZURESRV = 'shareddatabaseserver.database.windows.net'   # Azure SQL database server name (fully qualified)
AZUREDB = 'Pandas'                                      # Azure SQL database name (if it does not exit, pandas will create it)
TABLE = 'DataTable'                                      # Azure SQL database table name
DRIVER = 'ODBC Driver 13 for SQL Server'                 # ODBC Driver

def main():
"""Main function"""

# 2. Build a connectionstring
connectionstring = 'mssql+pyodbc://{uid}:{password}@{server}:1433/{database}?driver={driver}'.format(
    uid=AZUREUID,
    password=AZUREPWD,
    server=AZURESRV,
    database=AZUREDB,
    driver=DRIVER.replace(' ', '+'))

# 3. Read dummydata into dataframe 
df = pd.read_csv('./data/data.csv')

# 4. Create SQL Alchemy engine and write data to SQL
engn = create_engine(connectionstring)
df.to_sql(TABLE, engn, if_exists='append')

# 5. Read data from SQL into dataframe
query = 'SELECT * FROM {table}'.format(table=TABLE)
dfsql = pd.read_sql(query, engn)

print(dfsql.head())


if __name__ == "__main__":
    main()

最后，以下资源应有助于比较具有性能问题的特定实现和以下信息，其中堆栈溢出线程可能是最佳资源，但监控和性能调整文档对于调查和缓解任何服务器端性能问题很有用， ETC。

在 Azure SQL 数据库和 Azure SQL 托管实例中使用 fast_executemany 的 pyODBC 监控和性能调整加速 pandas.DataFrame.to_sql

问候，迈克

score 1 · Accepted Answer

params = urllib.parse.quote_plus(
    'Driver=%s;' % driver +
    'Server=%s,1433;' % server +
    'Database=%s;' % database +
    'Uid=%s;' % username +
    'Pwd={%s};' % password +
    'Encrypt=yes;' +
    'TrustServerCertificate=no;'
    )


conn_str = 'mssql+pyodbc:///?odbc_connect=' + params
engine = create_engine(conn_str)

@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()
        
connection = engine.connect()
connection

数据库摄取是通过下一行完成的。我之前遇到过块大小的问题，但通过添加方法和索引来修复它。

ingest_data.to_sql('db_table_name', engine, if_exists='append',chunksize=100000, method=None,index=False)

python - 如何加快熊猫 to_sql

2 回答 2

Related

Reference