0

如何限制正在使用的内核/线程/进程的数量vaex?一些操作有一个布尔parallel开关,但我没有看到一种方法来进行更细粒度的控制(这在更大的共享服务器上很重要)。

手头的代码片段:

vaex.open("/very/large/file.parquet/")\
   .sample(frac=0.01)\
   .export_parquet("/slightly/smaller/file.parquet", parallel=True)
4

1 回答 1

1

关于线程数,您可以使用一个名为 的环境变量VAEX_NUM_THREADS,默认情况下它使用multiprocessing.cpu_count()

cf https://github.com/vaexio/vaex/blob/2418d56a1925a82557a8e86493f5e5d117c06049/packages/vaex-core/vaex/multithreading.py#L21

于 2021-04-16T15:16:48.517 回答