问题标签 [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
856 浏览

python - python中大数组的乘法

我也有大数组可以在大量迭代中相乘。

我正在训练一个数组长约 1500 的模型,我将执行 3 次乘法约 1000000 次,这几乎需要一周的时间。

我发现 Dask 我试图将它与普通的 numpy 方式进行比较,但我发现 numpy 更快:

0.08502793312072754

0.00015974044799804688

我是用错了 dask 还是 numpy 这么快?

0 投票
1 回答
189 浏览

python - numpy.tile 的 dask 等价物是什么?

Dask ( http://dask.pydata.org/en/latest/array-api.html ) 是一个用于分析的灵活并行计算库。与 Numpy 相比,它可以扩展到大数据,并且有许多类似的方法。numpy.tile我怎样才能达到与dask 阵列相同的效果?

0 投票
2 回答
3836 浏览

python - 如何在 dask 中绘制直方图?

t是一个 dask 数组。我想绘制一个直方图t。Dask 文档有方法

但没有例子。我尝试bins使用 numpy 数组进行设置。没用。我试过使用matplotlib.pyplot它花了超过 5 分钟并且没有产生任何东西(我的数据集非常大(GB 大小),但这似乎很长一段时间)。

0 投票
1 回答
1417 浏览

python - dask 数据帧应用不并行执行

我有以下 python 脚本,我在其中使用现有的 pandas 数据框创建了一个 dask 数据框。我正在使用多处理调度程序,因为我的函数使用纯 python。调度程序创建 8 个进程(每个分区一个),但它们按顺序运行,一次一个。

我只使用 dask 来并行化计算,我的数据集足够小,可以留在主内存中。

是否可以并行运行每个进程?

0 投票
1 回答
1555 浏览

python - DASK:IOError:[Errno 13] 权限被拒绝:

我正在使用Dask 0.10最新的Anaconda发行版,调用后遇到以下错误.compute(get=dask.multiprocessing.get)

我不知道是什么原因造成的。Dask需要写在根目录吗?我正在一台没有管理员权限且有防火墙的机器上工作。

0 投票
1 回答
2560 浏览

python - Dask:非常低的 CPU 使用率和多线程?这是预期的吗?

我正在使用如何在 Pandas 中使用 apply 并行化许多(模糊)字符串比较dask

基本上我做了一些计算(不向磁盘写入任何内容)调用PandasFuzzywuzzy(如果有帮助的话,显然可能不会释放 GIL)并且我运行类似:

但是,代码的一个变体现在已经运行了 10 个小时,还没有结束。我在 Windows 任务管理器中注意到

  • RAM utilization相当低,对应于我的数据大小
  • CPU usage每 2/3 秒左右从 0% 反弹到最多 5%
  • 20 Python processes的大小约为 100MB,一个 Python 进程可能包含 30GB 大小的数据(我有一台 128GB 的​​机器,8 核 CPU

问题是:这种行为是预期的吗?我在这里设置一些dask选项显然是非常错误的吗?

当然,我知道具体情况取决于我到底在做什么,但也许上面的模式已经可以说明某些事情是非常错误的?

非常感谢!!

0 投票
1 回答
1311 浏览

python - RAM issue with DASK and its from_pandas function

i'm trying to use DASK package in Python 3.4 for avoid RAM problems with large datasets, but i've notice a problem.

Using native fucntion "read_csv" i load big dataset into a dask dataframe using less than 150MB of RAM.

The same dataset read with PANDAS DB Connection (using limit and offset options) and dask fuction"from_pandas" fill my ram uo to 500/750 MB.

I can't undestand why this happens and i want to fix this issue.

Here the code:

Thanks for help me

Waiting for news

0 投票
2 回答
145 浏览

python - 使用 dask 进行单遍数据转换,与基本 pandas 示例相同

我试图了解dask如何帮助我对庞大的数据集进行数据转换。我需要执行的任务如下面的 pandas 示例。

当我开始使用时:

当我尝试在多列中转换数据并一次性添加更多列时,我立即卡住了。

所以我的问题是如何从 pandas dask 重新创建示例并单次传递数据?

0 投票
1 回答
303 浏览

python - 使用 dask 时如何避免使用 `Bag.take(n)` 出现空结果?

上下文:Dask 文档明确指出,Bag.take()只会从第一个分区收集。但是,当使用过滤器时,可能会出现第一个分区是空的,而其他分区不是。

问题:是否可以使用Bag.take()它从足够数量的分区收集n项目(或最大可用小于n)。

0 投票
1 回答
1340 浏览

python - npartitions 会影响 dask.dataframe.head() 的结果吗?

运行以下代码时,dask.dataframe.head() 的结果取决于 npartitions:

这会产生以下结果:

但是,当我将 npartitions 设置为 1 或 2 时,我得到了预期的结果:

npartitions 低于数据帧的长度似乎很重要。这是故意的吗?