问题标签 [cudf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - 将 dask_cudf 分区加载到 GPU 内存时,每个分区有多少开销?
PCIE 总线带宽延迟会限制应用程序应如何以及何时将数据复制到 GPU 和从 GPU 复制数据。
直接使用 cuDF 时,我可以有效地将一大块数据移动到单个 DataFrame 中。
使用 dask_cudf 对我的 DataFrame 进行分区时,Dask 是否一次将一个分区复制到 GPU 内存中?分批?如果是这样,多个复制操作而不是单个更大的副本是否有显着的开销?
python - 推荐的cudf数据框构建
我对从密集的 numpy 对象创建 cudf DataFrames 的推荐和快速方法感兴趣。我已经看到了许多将 2d numpy 矩阵的列拆分为元组然后调用cudf.DataFrame
元组列表的示例——这相当昂贵。使用numba.cuda.to_device
速度相当快。是否可以使用numba.cuda.to_device
或者是否有更有效的方法来构建 DataFrame ?
以上显示cudf.DataFrame
比直接调用慢约 360 倍numba.cuda.to_device
python - 如何使用 cudf 删除带有 NA 的列?
熊猫:
我正在尝试使用 cudf 数据框做类似的事情,但 api 不提供此功能。
我的解决方案是转换为 pandas df,执行上述命令,然后重新转换为 cudf。有更好的解决方案吗?
rapids - “nvstrings”对象没有属性“to_gpu_array”
我正在使用 cuML 进行随机梯度下降。我使用 sklearn 的 train_test_split 从 cuDF 数据帧生成 train_X、train_y ... 的拆分。
以下代码(我删除了与此问题无关的超参数):
在 cu_sgd.fit 行上引发以下错误:“nvstrings”对象没有属性“to_gpu_array”
我该如何解决这个问题?
nvidia - 导入 cudf 失败:非法指令(核心转储)
安装了cuda驱动。cudf 与 conda 一起安装。我尝试导入 cudf 但变成非法指令(核心转储)。我还尝试卸载 cudf 0.7.2 并安装 cudf 0.6.1 。没运气。
rapids - 替换 C 列中的值,其中 A 列中的值为 x
问题
在将空值替换为布尔值的过程中,我们在列中找到空值fireplace_count
。
如果fireplaceflag
value 是False
valuefireplace_count
null
应该替换为0
为熊猫而写
rapids - 如何在 GPU DataFrame-cuDF 中应用 if 条件来过滤 DataFrame?
我想根据列值过滤 cuDF 数据框,然后根据指定的条件创建一个新列。基本上,我如何在 cuDF 中应用以下内容?
df.loc[df.column_name condition, 'new column name'] = 'value if condition is met'
python - 如何将 dask.dataframe 预缓存到所有工作人员和分区以减少通信需求
有时它很适合dask.dataframe.map_partitions
用于合并等操作。在某些情况下,在 aleft_df
和 a right_df
using之间进行合并时map_partitions
,我想在执行合并之前进行预缓存right_df
,以减少网络开销/本地改组。有什么明确的方法可以做到这一点吗?感觉应该可以使用 , 或其他一些智能广播中的一个或client.scatter(the_df)
组合client.run(func_to_cache_the_df)
。
left_df
在对一个大得多的大的right_df
(本质上是一个查找表)进行左连接的情况下,这一点尤为突出。感觉这right_df
应该能够读入内存并持久化/分散到合并前的所有工作人员/分区,以减少对跨分区通信的需求,直到最后。我怎样才能分散right_df
成功地做到这一点?
以下是使用 cuDF 和 Dask 进行这种不平衡合并的一个较小示例(但从概念上讲,这与 pandas 和 Dask 相同):
python - 相当于 cuDF 中的 pd.Series.str.slice() 和 pd.Series.apply()
我想将以下代码(在 pandas 中运行)转换为在 cuDF 中运行的代码。
来自被操作系列的样本数据.head()
被插入到第 3 个代码单元格中的 OG 代码中——应该能够复制/粘贴运行。
熊猫中的原始代码
被操纵的数据
调整代码以从该示例数据开始
这是使用上面提供的数据而不是整个数据框时代码的外观。
根据尝试转换时遇到的错误,此问题属于系列级别,因此将下面的单元格转换为在 cuDF 中执行应该可以解决问题。
预期变化(输出)
df_train['census_tractnumber'].head()
df_train['block_number'].head()