问题标签 [vaex]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

128 问题

0 投票

1 回答

65 浏览

python - 访问 vaex 的 example() 数据时出现 404

访问时

如vaexsphinx 文档主页 https://vaex.readthedocs.io/en/latest/中所述

它提供 404：

该数据集是否有更新的网址？

python vaex

2020-08-30T00:15:46.240

0 投票

1 回答

159 浏览

python - vaex groupby 从多个 hdf5 文件读取数据时给出 TypeError: unhashable type: 'Expression'

vdf = vaex.open('test_*.hdf5')在 Python 中，我使用 vaex ( )从多个 hdf5 文件中打开一个数据框。一切似乎都运行良好，例如将两列组合成一个新列 ( vdf['newcol'] = vdf.x+vdf.y)。

但我无法让 vaex 的 groupby 工作：vdf.groupby('x', agg='count')抛出TypeError: unhashable type: 'Expression'.

x是整数列还是字符串列似乎并不重要。当我只读取一个 hdf5 文件时它工作得很好，但是一旦将多个文件组合到一个 vaex 数据帧中就会失败。此错误的原因可能是什么，我该如何解决？

2020-09-07T12:21:30.173

0 投票

1 回答

289 浏览

python - 使用 vaex 从 CSV 转换为 HDF5 时保留日期时间类型

我有一个带有存储时间戳的时间列的 csv 文件。使用 vaex.from_csv() 方法将此文件转换为 hdf5 格式后，时间列中的值是字符串。例如：

输出是：

我尝试将时间戳格式化为 ISO 8601，并使用/不使用引号进行存储。结果是一样的。从 csv 转换为 hdf5 时，是否有某种方法可以强制 vaex 将时间戳识别为日期时间（或 np.datetime64）？

python csv hdf5 vaex

2020-09-30T12:00:54.380

0 投票

1 回答

266 浏览

pandas - 尝试将 csv 转换为 HDF5 并使用 vaex 读取它

使用这段代码将 csv 转换为具有给定块大小的 HDF5

但是在执行上述操作时出现此错误

安装包有问题吗？

pandas dataframe hdf5 vaex

2020-10-06T05:13:08.693

0 投票

0 回答

495 浏览

python - 使用 python 库、pandas、vaex 和 dask 在非常大的数据集 +10GB 上进行 groupby

我有超过 10 GB 的交易数据，我使用 DASK 读取数据，选择我感兴趣的列，并按我想要的列分组。所有这一切都非常快，但计算效果不佳，调试也很困难。

然后我决定使用 PANDAS chunksize 打开我的数据，每百万分块我的数据。然后使用 VAEX 将文件合并为一个大的 HDF5 文件。直到这里一切都很顺利，但是当我尝试按列分组并超过 50k 数据时，我的代码崩溃了。我想知道如何管理这个......我应该在将它们组合到 vaex 数据框之前对每个熊猫块进行分组，或者是否可以将我的 vaex 数据框转换为 dask 数据框，groupby 然后将按数据框分组的转换为 vaex 哪个对我来说更友好，因为它类似于熊猫。

这是我的第一篇文章，对不起，如果没有足够的细节，或者我不清楚，请随时问我任何问题。

python pandas dask large-data vaex

2020-10-06T09:33:35.323

0 投票

1 回答

478 浏览

python - 重命名 Vaex 中的列

我最初尝试使用 pandas pd.read_csv 读取 4GB 的 csv 文件，但我的系统内存不足（我猜）并且内核正在重新启动或系统挂起。因此，我尝试使用 vaex 库将 csv 转换为 HDF5 并对其进行操作（聚合、分组）。为此，我使用过：

但是我仍然将 csv 文件中的第一条记录作为标题（准确地说是列名），并且我无法更改列名。我尝试找到更改名称的功能，但没有遇到任何问题。请帮助我。谢谢：）

列名 1559104、10289、991... 实际上是 csv 中的第一条记录，并且 vaex 以某种方式将第一行作为我想要避免的列名

python pandas vaex

2020-10-07T12:32:43.260

0 投票

1 回答

131 浏览

python-3.x - Altair 与 Vaex

我正在尝试将Vaex与Altair一起使用，但在将 Vaex 数据帧传递给 Altair 时遇到了一些麻烦。

尝试制作简单的折线图时

我收到一条错误消息

[the] encoding field[s] is[are] 未指定类型；无法自动推断类型，因为数据未指定为 pandas.DataFrame。

但是如果我尝试指定它们

我收到一条错误消息

altair.vegalite.v4.api.Chart->0，验证“附加属性”

不允许附加属性（'y1'、'x'、'y2' 是意外的）

在我看来，将 Vaex 数据框链接到 Altair 存在一些问题，但我不知道如何解决它......

这里是完整的代码：

python-3.x altair vaex

2020-10-12T07:35:02.777

0 投票

1 回答

854 浏览

python - 什么是 Vaex 函数将字符串解析为 datetime64，相当于 pandas to_datetime，允许自定义格式？

我有日期作为字符串（例如：2020 年 3 月 24 日），我想将其转换为datetime64[ns]格式

to_datetime在 vaex 数据帧上使用 pandas会导致错误：

我看到了可能重复的问题。

然而，答案是类型转换。我的案例需要格式 ('%m/%d/%Y') 将字符串解析为datetime64[ns]，而不仅仅是类型转换。

解决方案：制作自定义函数，然后.apply

python pandas datetime datetime-format vaex

2020-10-19T09:25:13.687

0 投票

1 回答

112 浏览

python - 如何将 CUDA 与 vaex（一个 Python 库）一起使用

我的代码如下：

第一次使用这个函数时——<strong>jit_cuda()，报错“No Module named cupy”

但是，当我安装了 cupy-cuda101（适应我的 CUDA 版本）时，我收到了一个新错误

我该如何解决？

python cupy vaex

2020-10-20T06:37:39.670

0 投票

1 回答

1208 浏览

python - 过滤后如何将新列从数组添加到 Vaex 数据框？

我有数据文件'for-filter.txt'

我正在做的 Vaex 代码

我想将列“e”添加到df_filter，我得到了错误

我只关心长度为 3 的数据帧，因为我只是丢弃了无用的行。但不知何故，Vaex 希望我的长度为 5。

pandas 中的类似代码应按预期运行

python vaex

2020-10-20T11:31:16.240

1 2 3 4 5 6 7 8 9 10

问题标签 [vaex]

Reference