0

我需要从 teradata 读取大量数据(应用程序。800M 记录),我的代码对于一百万条记录运行良好。对于较大的集合,它需要时间来构建元数据。有人可以建议如何使它更快。下面是我用于我的应用程序的代码片段。

def get_partitions(num_partitions):
    list_range =[]
    initial_start=0
    for i in range(num_partitions):
        amp_range = 3240//num_partitions
        start = (i*amp_range+1)*initial_start
        end   = (i+1)*amp_range
        list_range.append((start,end))
        initial_start = 1
    return list_range

@delayed
def load(query,start,end,connString):
    df = pd.read_sql(query.format(start, end),connString)
    engine.dispose()
    return df

connString = "teradatasql://{user}:{password}@{hostname}/?logmech={logmech}&encryptdata=true"

results = from_delayed([load(query,start, end,connString) for start,end in get_partitions(num_partitions)])
4

1 回答 1

0

构建时间可能用于查找表的元数据。这是通过获取整个第一个分区并对其进行分析来完成的。

如果您预先知道 dtypes,例如,{col: dtype, ...}对于所有列,或者从一个单独的查询中生成它,您最好明确指定它,您将其限制为尽可能多的行以确保您拥有正确的类型:

meta = dask.compute(load(query, 0,10 ,connString))

results = from_delayed(
    [
        load(query,start, end,connString) for start,end in 
        get_partitions(num_partitions)
    ],
    mete=meta.loc[:0, :]  # zero-length version of table
)
于 2020-12-20T17:39:36.813 回答