问题标签 [cudf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1150 浏览

series - 如何使用 cudf.Series.applymap()?

有人可以提供一些如何applymap在 cuDF 系列上使用该方法的示例吗?

以下是从文档中复制的,这里是文档的链接。

0 投票
1 回答
66 浏览

pandas - 用什么代替 pandas.Series.filter?

熊猫-> cuDF

将一些为 pandas 编写的 python 转换为在 Rapids 上运行

熊猫

有人知道用什么代替pandas.Series.filter相同的结果cuDF吗?

0 投票
1 回答
75 浏览

rapids - 将 cuDF 数据框列转换为“真”/“假”值的 1 或 0

我正在使用 RAPIDS(0.9 版本)docker 容器。如何使用 RAPIDS cuDF 执行以下操作?

df['new_column'] = df['column_name'] > condition df[['new_column']] *= 1

0 投票
1 回答
295 浏览

gpu - 在没有 GPU 的情况下运行 RAPIDS 进行开发?

有没有办法在没有 GPU 的情况下运行 RAPIDS?我通常在没有 GPU 的小型本地机器上开发,然后将我的代码推送到功能强大的远程服务器以供实际使用。TensorFlow 之类的东西允许在 CPU 和 GPU 之间切换,具体取决于它们是否可用。可以用 RAPIDS 做同样的事情吗?即使速度很慢,能够在没有 GPU 的机器上进行测试也会非常有帮助。

0 投票
3 回答
11072 浏览

pip - 如何使用 pip 安装 cudf?

我想在我的 GPU 上加速 pandas,所以我决定使用cudf库。请建议其他图书馆(如果有的话)。

我尝试cudf使用 pip by安装pip3.6 install cudf-cuda92。pip 版本是 19.2.3(最新)。

当我pip3.6 install cudf-cuda92在我的 cmd 上运行时,它说:

0 投票
1 回答
1655 浏览

python - 处理大量 parquet 文件时出现 CUDF 错误

我在一个目录中有 2000 个镶木地板文件。每个 parquet 文件大小约为 20MB。使用的压缩是 SNAPPY。每个 parquet 文件都有如下所示的行:

每个列条目都是一个字符串。我正在使用具有以下配置的 p3.8xlarge EC2 实例:

  • 内存:244GB
  • vCPU : 32
  • GPU RAM:64GB(每个GPU核心有16GB RAM)
  • GPU:4特斯拉V100

我正在尝试以下代码:

这在处理前 180 个文件后崩溃,并出现以下运行时错误:

在任何给定时间,只有 10% 的 GPU 和 CPU RAM 被使用。任何想法如何调试这个或相同的解决方法是什么?

0 投票
1 回答
405 浏览

dask - 如何确保“分区”的数量在 dask 和 dask-cudf 的工作人员之间平均分配?

我正在尝试对使用大量工作人员的工作人员的大文件进行基本的ETLdask-cudf工作流程。

问题:

最初,scheduler计划在工作人员之间读取的数量相等,partitions但在预处理期间,它倾向于在工作人员之间分配/打乱它们。

一个工作人员获得的最小分区数是4,它获得的最大分区数是19total partitions= apprx. 300num_workers= 22)这种行为会导致下游问题,因为我希望在工作人员之间平均分配分区。

有没有办法防止这种行为?

我认为下面会对此有所帮助,但事实并非如此。

正在完成的工作流程:

  • 填满
  • 向下转换/其他逻辑
0 投票
1 回答
618 浏览

python - 如何在google平台-ai平台-笔记本实例中安装库

我目前是一名数据科学本科生,尝试使用google can平台-人工智能平台-笔记本实例做数据科学项目。下图显示了我在说什么。


在此处输入图像描述


在此处输入图像描述


我运行实例并使用它来操作数据没有问题。但是,由于我想使用 cudf 库来加快数据处理速度,所以我需要安装该库。通过从互联网上搜索,我尝试过:首先,我打开了终端:


在此处输入图像描述


然后我尝试了以下命令并得到了错误:


在此处输入图像描述


该命令来自该网站 2.然后我尝试使用 anaconda 方式安装它,使用来自同一网站的方法我在终端中键入以下命令并得到“UnsatisfiableError”。


在此处输入图像描述


从上面可以看出,10.0版本和9.42版本我都试过了,但是都不行。3.然后我也尝试使用这个网站的方法。我在终端上输入了以下命令conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults cudf=0.8 python=3.6 cudatoolkit=9.2,结果很长,所以我只显示最后一部分:


在此处输入图像描述


可以看到,这次安装成功了。但是当我打开一本新笔记本并导入“cudf”库时,会出现以下错误:


在此处输入图像描述


它说没有这样的库,但我只是安装了该库。

我非常感谢任何可以为我解决这个问题的人,因为我已经为此苦苦挣扎了 7 个小时。

0 投票
1 回答
1210 浏览

dask - 如何使用 dask/dask-cudf 将单个大型 parquet 文件读入多个分区?

我正在尝试使用/读取单个大parquet文件(大小> gpu_size),但它当前正在将其读入单个分区,我猜这是从文档字符串推断的预期行为:dask_cudfdask

有没有一种解决方法我可以将它读入多个分区?

0 投票
1 回答
206 浏览

pandas - cudf 是否支持 get_dummies?

cudf 是否支持 pandas get_dummies。在熊猫中,我可以执行以下操作;