python-3.x - 使用 pandas 加载 teradata 表需要花费大量时间

翻译自：https://stackoverflow.com/questions/62081343 2020-05-29T08:03:22.737

66 次

当使用 teradatasql 和主要函数 pandas.read_sql(query,teradata_con) 从 Teradata 服务器加载超过 1000 万条记录时，Pandas 变得异常缓慢。从 teradata 表加载 1-150 万条记录需要 40-45 分钟。

sql_query = "select * from DB.TableName where columnname= 'values'"


df = pd.read_sql(sql_query, con_t)

我也使用了 chunksize 选项，但它并没有减少执行时间，只是它在同一时间以块的形式加载数据。我也尝试探索 IOPro 包，但没有得到太多信息。有什么办法可以减少执行时间？因为，当我直接在管理工具中执行相同的 sql 查询时，与 pandas 相比，它需要 1/3 时间。

0 回答 0