当使用 teradatasql 和主要函数 pandas.read_sql(query,teradata_con) 从 Teradata 服务器加载超过 1000 万条记录时,Pandas 变得异常缓慢。从 teradata 表加载 1-150 万条记录需要 40-45 分钟。
sql_query = "select * from DB.TableName where columnname= 'values'"
df = pd.read_sql(sql_query, con_t)
我也使用了 chunksize 选项,但它并没有减少执行时间,只是它在同一时间以块的形式加载数据。我也尝试探索 IOPro 包,但没有得到太多信息。有什么办法可以减少执行时间?因为,当我直接在管理工具中执行相同的 sql 查询时,与 pandas 相比,它需要 1/3 时间。