问题标签 [vaex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 vaex.from_csv 将 csv 转换为 hdf5 错误:“DataFrameArrays”对象没有属性“dtype”
我有一个超过 1300 万行的 csv 文件,我想转换为 hdf5: 我可以运行代码:
但如果我运行以下代码:
我收到错误:
当我运行时发生同样的错误:
你能告诉我出了什么问题或者我该如何解决这个问题。谢谢
python - 可以在 vaex 数据框上使用功能工具吗?
我正在尝试使用自动化特征工程——我已经让它在原始数据帧上工作,但我不确定在内存不足的数据帧上做它,比如 vaex。我的目的是找到一种在数据框超出内存时使用自动化特征工程的方法。
我想知道有没有人成功过?这是我正在做的/代码:
我收到此错误:
有可能做我正在做的事情吗?我的方法有错误吗?或者以另一种方式来做?
python-3.x - 如何在地图上使用 vaex 可视化大数据级别的经纬度数据
我成功地用我自己的车辆数据复制了关于纽约出租车数据的vaex
博客文章中的第一张经纬度地图。然而,这个出租车位置的热图只是绘制了点,而不是绘制了底层地图。我也尝试过geopandas
作为替代地图图,但这使用形状文件,因此街道细节不存在,您也无法交互式缩放。然后我尝试ipyleaflet
了看起来很有希望的方法。我使用以下代码作为起点来生成测试热图。但是我必须用我vaex
的数据框的纬度和经度数据替换以下代码:
如何将此概念扩展到大数据数据集?我可以从vaex
或pandas
以某种方式对纬度和经度进行分组,然后计算一个适当的intensity
值,并以这种方式减少我必须传递给热图的点数吗?
我还发现了这个,我不确定这是否意味着vaex
已经支持ipyleaflet
导出。
此堆栈溢出帖子可能有助于合并纬度和经度,尽管缺少解释,并且它还引用了问题中不可用的答案中的列。
python-3.x - 熊猫如何在没有分类值范围的情况下进行 bin 和 groupby
我有大量的纬度和经度值,我想将它们组合在一起以便在热图中显示它们(在热图中ipyleaflet
似乎只允许 2000 个左右的点,这在使用大数据时也会更有效率) .
我实际上正在使用vaex
,但就其而言的答案pandas
也很好。
该pandas
pd.cut
函数在分箱方面似乎很有帮助,但是它会生成一个分类列 ( category
dtype
),它看起来像是分箱中所有值的列表。是否有某种方法可以将其更改为标识每个垃圾箱的增量数字(感谢 jezreal 的那部分答案)?我只需要一个 bin 编号,然后在纬度和经度列上groupby
的 bin 编号和平均值 ( )。mean
我还需要计算热图条目的强度。
例如:
如果计数可以在 1 到 1000 之间标准化,将会很有帮助。
我如何使用行pandas
pd.cut
中的 bin 或其他东西groupby
,平均纬度和经度以及列中的(热图强度)计数?
python - 打印 Vaex HDF5 数据时显示完整整数而不是科学计数法
我的代码:
输出:
如何将输出格式更改为正常格式,例如:
谢谢!
python-3.x - 无法打开大于内存的 HDF5 文件... ValueError
我有很多 .csv 来自nyc.gov的纽约出租车,一个 .csv = 年月。在那里我抓取了 cca 15 的 csv 并从中制作 HDF5:
接下来我制作一个大的 HDF5:
到目前为止,一切正常,我可以打开输出文件 Spojene.hdf5。
接下来,我将新的 .csv 附加到 Spojene.hdf5:
但是,当我将新的 .csv 附加到 Spojene.hdf5 时,我无法打开它:
ValueError:第一列的长度为 289184484,而列表的长度为 60107988
请问,我能做什么?
python - 如何迭代同一列的前几行的结果?
从具有 ABDP 列的数据框开始:
导出到 hdf5:
我需要计算每行的“C”列,并得到所需的结果,如下所示:
为了达到这个结果,我需要从第 (1) 行开始迭代每一行并计算如下内容:
但它不起作用。
第一行和第二行结果正常:
我已经尝试过“转变”(sammywemmy 的建议)。对于“vaex.from_csv”之前的此示例数据框,它可以正常工作,但是当通过 vaex 将概念实施到大数据框时,移位不起作用。
所以,问题是:是否有一种“良好实践”的方法来执行这种演算(考虑到“C”中的前几行,迭代“C”列中的一行的结果)(我正在使用 vaex从 100 万行 csv 导入)?
提前致谢。
python-3.x - vaex:如何限制核心/线程/进程的数量?
如何限制正在使用的内核/线程/进程的数量vaex
?一些操作有一个布尔parallel
开关,但我没有看到一种方法来进行更细粒度的控制(这在更大的共享服务器上很重要)。
手头的代码片段:
python - 并行运行 python vaex.ml.catboost.CatBoostModel.fit 的正确方法是什么?
描述
我有一个 python 代码顺序调用vaex.ml.catboost.CatBoostModel.fit
3 折。这需要很多时间,我想vaex.ml.catboost.CatBoostModel.fit
并行运行。
问题
当我vaex.ml.catboost.CatBoostModel.fit
按顺序和并行运行时,我会得到不同的结果。当然,我做错了。我希望并行结果非常接近顺序结果(种子不是硬编码的,所以总会有一些小的波动)。顺序和并行版本产生绝对无与伦比的结果。
这是顺序代码。它产生approved result
这是我的并行代码:
python - 在 Python Vaex 库中,如何将列的值替换为该列的允许自定义值
我有一个字典,其中包含键值对列名称和值作为该列中允许值的列表
如何用'0'替换字典列表中没有出现的值
FinalCat_ 是列名列表 CombinedCat 是 Vaex df AllowedCatColValuesFast 是字典
所以当我做 .value_counts() 它给我一个错误列表索引超出了新列的范围。