问题标签 [cudf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
series - 如何使用 cudf.Series.applymap()?
有人可以提供一些如何applymap
在 cuDF 系列上使用该方法的示例吗?
以下是从文档中复制的,这里是文档的链接。
pandas - 用什么代替 pandas.Series.filter?
熊猫-> cuDF
将一些为 pandas 编写的 python 转换为在 Rapids 上运行
熊猫
有人知道用什么代替pandas.Series.filter
相同的结果cuDF
吗?
rapids - 将 cuDF 数据框列转换为“真”/“假”值的 1 或 0
我正在使用 RAPIDS(0.9 版本)docker 容器。如何使用 RAPIDS cuDF 执行以下操作?
df['new_column'] = df['column_name'] > condition
df[['new_column']] *= 1
gpu - 在没有 GPU 的情况下运行 RAPIDS 进行开发?
有没有办法在没有 GPU 的情况下运行 RAPIDS?我通常在没有 GPU 的小型本地机器上开发,然后将我的代码推送到功能强大的远程服务器以供实际使用。TensorFlow 之类的东西允许在 CPU 和 GPU 之间切换,具体取决于它们是否可用。可以用 RAPIDS 做同样的事情吗?即使速度很慢,能够在没有 GPU 的机器上进行测试也会非常有帮助。
pip - 如何使用 pip 安装 cudf?
我想在我的 GPU 上加速 pandas,所以我决定使用cudf
库。请建议其他图书馆(如果有的话)。
我尝试cudf
使用 pip by安装pip3.6 install cudf-cuda92
。pip 版本是 19.2.3(最新)。
当我pip3.6 install cudf-cuda92
在我的 cmd 上运行时,它说:
python - 处理大量 parquet 文件时出现 CUDF 错误
我在一个目录中有 2000 个镶木地板文件。每个 parquet 文件大小约为 20MB。使用的压缩是 SNAPPY。每个 parquet 文件都有如下所示的行:
每个列条目都是一个字符串。我正在使用具有以下配置的 p3.8xlarge EC2 实例:
- 内存:244GB
- vCPU : 32
- GPU RAM:64GB(每个GPU核心有16GB RAM)
- GPU:4特斯拉V100
我正在尝试以下代码:
这在处理前 180 个文件后崩溃,并出现以下运行时错误:
在任何给定时间,只有 10% 的 GPU 和 CPU RAM 被使用。任何想法如何调试这个或相同的解决方法是什么?
dask - 如何确保“分区”的数量在 dask 和 dask-cudf 的工作人员之间平均分配?
我正在尝试对使用大量工作人员的工作人员的大文件进行基本的ETLdask-cudf
工作流程。
问题:
最初,scheduler
计划在工作人员之间读取的数量相等,partitions
但在预处理期间,它倾向于在工作人员之间分配/打乱它们。
一个工作人员获得的最小分区数是4
,它获得的最大分区数是19
(total partitions
= apprx. 300
,num_workers
= 22
)这种行为会导致下游问题,因为我希望在工作人员之间平均分配分区。
有没有办法防止这种行为?
我认为下面会对此有所帮助,但事实并非如此。
正在完成的工作流程:
- 读
- 填满
- 向下转换/其他逻辑
python - 如何在google平台-ai平台-笔记本实例中安装库
我目前是一名数据科学本科生,尝试使用google can平台-人工智能平台-笔记本实例做数据科学项目。下图显示了我在说什么。
我运行实例并使用它来操作数据没有问题。但是,由于我想使用 cudf 库来加快数据处理速度,所以我需要安装该库。通过从互联网上搜索,我尝试过:首先,我打开了终端:
然后我尝试了以下命令并得到了错误:
该命令来自该网站 2.然后我尝试使用 anaconda 方式安装它,使用来自同一网站的方法我在终端中键入以下命令并得到“UnsatisfiableError”。
从上面可以看出,10.0版本和9.42版本我都试过了,但是都不行。3.然后我也尝试使用这个网站的方法。我在终端上输入了以下命令conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults cudf=0.8 python=3.6 cudatoolkit=9.2
,结果很长,所以我只显示最后一部分:
可以看到,这次安装成功了。但是当我打开一本新笔记本并导入“cudf”库时,会出现以下错误:
它说没有这样的库,但我只是安装了该库。
我非常感谢任何可以为我解决这个问题的人,因为我已经为此苦苦挣扎了 7 个小时。
dask - 如何使用 dask/dask-cudf 将单个大型 parquet 文件读入多个分区?
我正在尝试使用/读取单个大parquet
文件(大小> gpu_size),但它当前正在将其读入单个分区,我猜这是从文档字符串推断的预期行为:dask_cudf
dask
有没有一种解决方法我可以将它读入多个分区?
pandas - cudf 是否支持 get_dummies?
cudf 是否支持 pandas get_dummies
。在熊猫中,我可以执行以下操作;