问题标签 [vaex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - vaex groupby 从多个 hdf5 文件读取数据时给出 TypeError: unhashable type: 'Expression'
vdf = vaex.open('test_*.hdf5')
在 Python 中,我使用 vaex ( )从多个 hdf5 文件中打开一个数据框。一切似乎都运行良好,例如将两列组合成一个新列 ( vdf['newcol'] = vdf.x+vdf.y
)。
但我无法让 vaex 的 groupby 工作:vdf.groupby('x', agg='count')
抛出TypeError: unhashable type: 'Expression'
.
x
是整数列还是字符串列似乎并不重要。当我只读取一个 hdf5 文件时它工作得很好,但是一旦将多个文件组合到一个 vaex 数据帧中就会失败。此错误的原因可能是什么,我该如何解决?
python - 使用 vaex 从 CSV 转换为 HDF5 时保留日期时间类型
我有一个带有存储时间戳的时间列的 csv 文件。使用 vaex.from_csv() 方法将此文件转换为 hdf5 格式后,时间列中的值是字符串。例如:
输出是:
我尝试将时间戳格式化为 ISO 8601,并使用/不使用引号进行存储。结果是一样的。从 csv 转换为 hdf5 时,是否有某种方法可以强制 vaex 将时间戳识别为日期时间(或 np.datetime64)?
pandas - 尝试将 csv 转换为 HDF5 并使用 vaex 读取它
使用这段代码将 csv 转换为具有给定块大小的 HDF5
但是在执行上述操作时出现此错误
安装包有问题吗?
python - 使用 python 库、pandas、vaex 和 dask 在非常大的数据集 +10GB 上进行 groupby
我有超过 10 GB 的交易数据,我使用 DASK 读取数据,选择我感兴趣的列,并按我想要的列分组。所有这一切都非常快,但计算效果不佳,调试也很困难。
然后我决定使用 PANDAS chunksize 打开我的数据,每百万分块我的数据。然后使用 VAEX 将文件合并为一个大的 HDF5 文件。直到这里一切都很顺利,但是当我尝试按列分组并超过 50k 数据时,我的代码崩溃了。我想知道如何管理这个......我应该在将它们组合到 vaex 数据框之前对每个熊猫块进行分组,或者是否可以将我的 vaex 数据框转换为 dask 数据框,groupby 然后将按数据框分组的转换为 vaex 哪个对我来说更友好,因为它类似于熊猫。
这是我的第一篇文章,对不起,如果没有足够的细节,或者我不清楚,请随时问我任何问题。
python-3.x - Altair 与 Vaex
我正在尝试将Vaex与Altair一起使用,但在将 Vaex 数据帧传递给 Altair 时遇到了一些麻烦。
尝试制作简单的折线图时
我收到一条错误消息
[the] encoding field[s] is[are] 未指定类型;无法自动推断类型,因为数据未指定为 pandas.DataFrame。
但是如果我尝试指定它们
我收到一条错误消息
altair.vegalite.v4.api.Chart->0,验证“附加属性”
不允许附加属性('y1'、'x'、'y2' 是意外的)
在我看来,将 Vaex 数据框链接到 Altair 存在一些问题,但我不知道如何解决它......
这里是完整的代码:
python - 什么是 Vaex 函数将字符串解析为 datetime64,相当于 pandas to_datetime,允许自定义格式?
我有日期作为字符串(例如:2020 年 3 月 24 日),我想将其转换为datetime64[ns]
格式
to_datetime
在 vaex 数据帧上使用 pandas会导致错误:
我看到了可能重复的问题。
然而,答案是类型转换。我的案例需要格式 ('%m/%d/%Y') 将字符串解析为datetime64[ns]
,而不仅仅是类型转换。
解决方案:制作自定义函数,然后.apply
python - 如何将 CUDA 与 vaex(一个 Python 库)一起使用
我的代码如下:
第一次使用这个函数时——<strong>jit_cuda(),报错“No Module named cupy”
但是,当我安装了 cupy-cuda101(适应我的 CUDA 版本)时,我收到了一个新错误
我该如何解决?
python - 过滤后如何将新列从数组添加到 Vaex 数据框?
我有数据文件'for-filter.txt'
我正在做的 Vaex 代码
我想将列“e”添加到df_filter
,我得到了错误
我只关心长度为 3 的数据帧,因为我只是丢弃了无用的行。但不知何故,Vaex 希望我的长度为 5。
pandas 中的类似代码应按预期运行