问题标签 [vaex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
65 浏览

python - 访问 vaex 的 example() 数据时出现 404

访问时

vaexsphinx 文档主页 https://vaex.readthedocs.io/en/latest/中所述

它提供 404:

该数据集是否有更新的网址?

0 投票
1 回答
159 浏览

python - vaex groupby 从多个 hdf5 文件读取数据时给出 TypeError: unhashable type: 'Expression'

vdf = vaex.open('test_*.hdf5')在 Python 中,我使用 vaex ( )从多个 hdf5 文件中打开一个数据框。一切似乎都运行良好,例如将两列组合成一个新列 ( vdf['newcol'] = vdf.x+vdf.y)。

但我无法让 vaex 的 groupby 工作:vdf.groupby('x', agg='count')抛出TypeError: unhashable type: 'Expression'.

x是整数列还是字符串列似乎并不重要。当我只读取一个 hdf5 文件时它工作得很好,但是一旦将多个文件组合到一个 vaex 数据帧中就会失败。此错误的原因可能是什么,我该如何解决?

0 投票
1 回答
289 浏览

python - 使用 vaex 从 CSV 转换为 HDF5 时保留日期时间类型

我有一个带有存储时间戳的时间列的 csv 文件。使用 vaex.from_csv() 方法将此文件转换为 hdf5 格式后,时间列中的值是字符串。例如:

输出是:

我尝试将时间戳格式化为 ISO 8601,并使用/不使用引号进行存储。结果是一样的。从 csv 转换为 hdf5 时,是否有某种方法可以强制 vaex 将时间戳识别为日期时间(或 np.datetime64)?

0 投票
1 回答
266 浏览

pandas - 尝试将 csv 转换为 HDF5 并使用 vaex 读取它

使用这段代码将 csv 转换为具有给定块大小的 HDF5

但是在执行上述操作时出现此错误

安装包有问题吗?

0 投票
0 回答
495 浏览

python - 使用 python 库、pandas、vaex 和 dask 在非常大的数据集 +10GB 上进行 groupby

我有超过 10 GB 的交易数据,我使用 DASK 读取数据,选择我感兴趣的列,并按我想要的列分组。所有这一切都非常快,但计算效果不佳,调试也很困难。

然后我决定使用 PANDAS chunksize 打开我的数据,每百万分块我的数据。然后使用 VAEX 将文件合并为一个大的 HDF5 文件。直到这里一切都很顺利,但是当我尝试按列分组并超过 50k 数据时,我的代码崩溃了。我想知道如何管理这个......我应该在将它们组合到 vaex 数据框之前对每个熊猫块进行分组,或者是否可以将我的 vaex 数据框转换为 dask 数据框,groupby 然后将按数据框分组的转换为 vaex 哪个对我来说更友好,因为它类似于熊猫。

这是我的第一篇文章,对不起,如果没有足够的细节,或者我不清楚,请随时问我任何问题。

0 投票
1 回答
478 浏览

python - 重命名 Vaex 中的列

我最初尝试使用 pandas pd.read_csv 读取 4GB 的 csv 文件,但我的系统内存不足(我猜)并且内核正在重新启动或系统挂起。因此,我尝试使用 vaex 库将 csv 转换为 HDF5 并对其进行操作(聚合、分组)。为此,我使用过:

但是我仍然将 csv 文件中的第一条记录作为标题(准确地说是列名),并且我无法更改列名。我尝试找到更改名称的功能,但没有遇到任何问题。请帮助我。谢谢 :)

列名 1559104、10289、991... 实际上是 csv 中的第一条记录,并且 vaex 以某种方式将第一行作为我想要避免的列名 在此处输入图像描述

0 投票
1 回答
131 浏览

python-3.x - Altair 与 Vaex

我正在尝试将VaexAltair一起使用,但在将 Vaex 数据帧传递给 Altair 时遇到了一些麻烦。

尝试制作简单的折线图时

我收到一条错误消息

[the] encoding field[s] is[are] 未指定类型;无法自动推断类型,因为数据未指定为 pandas.DataFrame。

但是如果我尝试指定它们

我收到一条错误消息

altair.vegalite.v4.api.Chart->0,验证“附加属性”

不允许附加属性('y1'、'x'、'y2' 是意外的)

在我看来,将 Vaex 数据框链接到 Altair 存在一些问题,但我不知道如何解决它......

这里是完整的代码:

0 投票
1 回答
854 浏览

python - 什么是 Vaex 函数将字符串解析为 datetime64,相当于 pandas to_datetime,允许自定义格式?

我有日期作为字符串(例如:2020 年 3 月 24 日),我想将其转换为datetime64[ns]格式

to_datetime在 vaex 数据帧上使用 pandas会导致错误:

我看到了可能重复的问题

然而,答案是类型转换。我的案例需要格式 ('%m/%d/%Y') 将字符串解析为datetime64[ns],而不仅仅是类型转换。

解决方案:制作自定义函数,然后.apply

0 投票
1 回答
112 浏览

python - 如何将 CUDA 与 vaex(一个 Python 库)一起使用

我的代码如下:

第一次使用这个函数时——<strong>jit_cuda(),报错“No Module named cupy”

但是,当我安装了 cupy-cuda101(适应我的 CUDA 版本)时,我收到了一个新错误

我该如何解决?

0 投票
1 回答
1208 浏览

python - 过滤后如何将新列从数组添加到 Vaex 数据框?

我有数据文件'for-filter.txt'

我正在做的 Vaex 代码

我想将列“e”添加到df_filter,我得到了错误

我只关心长度为 3 的数据帧,因为我只是丢弃了无用的行。但不知何故,Vaex 希望我的长度为 5。

pandas 中的类似代码应按预期运行