我是 Koalas (pyspark) 的新手,我试图利用 Koalas 进行并行应用,但似乎它在整个操作中使用了一个内核(如果我错了,请纠正我)并最终使用 dask并行应用(使用 map_partition)效果很好。
但是,我想知道是否有办法利用考拉进行并行应用。
我使用基本代码进行如下操作。
import pandas as pd
import databricks.koalas as ks
my_big_data = ks.read_parquet('my_big_file') # file is single partitioned parquet file
my_big_data['new_column'] = my_big_data['string_column'].apply(my_prep) # my_prep does stirng operations
my_big_data.to_parquet('my_big_file_modified') # for Koalas does lazy evaluation