问题标签 [cudf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
503 浏览

python - 如何用rapids.ai在GPU中做矩阵点积

我正在使用CUDF,它是 Nvidia 的 rapids ML 套件的一部分。

使用这个套件我将如何做一个点积?

例如,我将如何使用相同的 cudf 对象在上述 Dataframe 上执行点积?

0 投票
1 回答
155 浏览

dask - 将 dask_cudf 分区加载到 GPU 内存时,每个分区有多少开销?

PCIE 总线带宽延迟会限制应用程序应如何以及何时将数据复制到 GPU 和从 GPU 复制数据。

直接使用 cuDF 时,我可以有效地将一大块数据移动到单个 DataFrame 中。

使用 dask_cudf 对我的 DataFrame 进行分区时,Dask 是否一次将一个分区复制到 GPU 内存中?分批?如果是这样,多个复制操作而不是单个更大的副本是否有显着的开销?

0 投票
2 回答
695 浏览

python - 推荐的cudf数据框构建

我对从密集的 numpy 对象创建 cudf DataFrames 的推荐和快速方法感兴趣。我已经看到了许多将 2d numpy 矩阵的列拆分为元组然后调用cudf.DataFrame元组列表的示例——这相当昂贵。使用numba.cuda.to_device速度相当快。是否可以使用numba.cuda.to_device或者是否有更有效的方法来构建 DataFrame ?

以上显示cudf.DataFrame比直接调用慢约 360 倍numba.cuda.to_device

0 投票
2 回答
394 浏览

python - 如何使用 cudf 删除带有 NA 的列?

熊猫:

我正在尝试使用 cudf 数据框做类似的事情,但 api 不提供此功能。

我的解决方案是转换为 pandas df,执行上述命令,然后重新转换为 cudf。有更好的解决方案吗?

0 投票
1 回答
99 浏览

rapids - “nvstrings”对象没有属性“to_gpu_array”

我正在使用 cuML 进行随机梯度下降。我使用 sklearn 的 train_test_split 从 cuDF 数据帧生成 train_X、train_y ... 的拆分。

以下代码(我删除了与此问题无关的超参数):

在 cu_sgd.fit 行上引发以下错误:“nvstrings”对象没有属性“to_gpu_array”

我该如何解决这个问题?

0 投票
1 回答
180 浏览

nvidia - 导入 cudf 失败:非法指令(核心转储)

安装了cuda驱动。cudf 与 conda 一起安装。我尝试导入 cudf 但变成非法指令(核心转储)。我还尝试卸载 cudf 0.7.2 并安装 cudf 0.6.1 。没运气。

0 投票
3 回答
227 浏览

rapids - 替换 C 列中的值,其中 A 列中的值为 x

问题

在将空值替换为布尔值的过程中,我们在列中找到空值fireplace_count

如果fireplaceflagvalue 是Falsevaluefireplace_count null应该替换为0

为熊猫而写

0 投票
3 回答
906 浏览

rapids - 如何在 GPU DataFrame-cuDF 中应用 if 条件来过滤 DataFrame?

我想根据列值过滤 cuDF 数据框,然后根据指定的条件创建一个新列。基本上,我如何在 cuDF 中应用以下内容?

df.loc[df.column_name condition, 'new column name'] = 'value if condition is met'

0 投票
1 回答
472 浏览

python - 如何将 dask.dataframe 预缓存到所有工作人员和分区以减少通信需求

有时它很适合dask.dataframe.map_partitions用于合并等操作。在某些情况下,在 aleft_df和 a right_dfusing之间进行合并时map_partitions,我想在执行合并之前进行预缓存right_df,以减少网络开销/本地改组。有什么明确的方法可以做到这一点吗?感觉应该可以使用 , 或其他一些智能广播中的一个或client.scatter(the_df)组合client.run(func_to_cache_the_df)

left_df在对一个大得多的大的right_df(本质上是一个查找表)进行左连接的情况下,这一点尤为突出。感觉这right_df应该能够读入内存并持久化/分散到合并前的所有工作人员/分区,以减少对跨分区通信的需求,直到最后。我怎样才能分散right_df成功地做到这一点?

以下是使用 cuDF 和 Dask 进行这种不平衡合并的一个较小示例(但从概念上讲,这与 pandas 和 Dask 相同):

0 投票
2 回答
282 浏览

python - 相当于 cuDF 中的 pd.Series.str.slice() 和 pd.Series.apply()

我想将以下代码(在 pandas 中运行)转换为在 cuDF 中运行的代码。

来自被操作系列的样本数据.head()被插入到第 3 个代码单元格中的 OG 代码中——应该能够复制/粘贴运行。

熊猫中的原始代码

被操纵的数据

调整代码以从该示例数据开始

这是使用上面提供的数据而不是整个数据框时代码的外观。

根据尝试转换时遇到的错误,此问题属于系列级别,因此将下面的单元格转换为在 cuDF 中执行应该可以解决问题。

预期变化(输出)

df_train['census_tractnumber'].head()

df_train['block_number'].head()