问题标签 [vaex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
36 浏览

bigdata - vaex 数据框是否不支持数据生成

我有一个带有模式的数据集,

BIKE_ID REGN_NUMBER ENGINE_NUMBER 车架号 BUYED_YEAR
1 XN67TY567 34567ABGN65 145089 2011
2 XN67TM567 34567ABGT65 145085 2011
3 XN67TM569 34567VBGT65 1450867 2013
. . . . .
. . . . .
2870763 XN56RTMN 34786VHGT65 14501236 2016 年

现在我想生成从 28,70,764 到大约 3,28,70,764 的数据,即生成大约 3000 万行 ,以便在 pandas 中我们可以使用以下方法。

但由于它是大熊猫无法生成的大量数据,所以有什么方法可以通过在 Vaex 中解决这个问题。

但是 Vaex 给我一个错误 ValueError: range(2870764, 5870764) is not of string or Expression type, but <class 'range'>

那么,任何人都可以建议我是否可以在Vaex中这样做。

0 投票
0 回答
50 浏览

python - 聚类数百万个大型二元向量?

我想生成数百万个大型二进制向量(10_000 ... 100_000 位)。然后我想通过 OVERLAP (AND) 对它们进行聚类。之后,我想根据聚类对向量重新排序并保存以备后用。

Scipy 有一种聚类方法,但它可能不适用于如此大的数据集。Numpy 不会工作,因为我会内存不足。Vaex 可能会工作,但我必须自己编写聚类算法,它会在 python 中,所以它会很慢并且是只读的。另外我不确定生成数据时使用什么格式:csv,hdf5 ??

任何可能的解决方案?任何其他工具或技术?

如果可能的话,在生成它们时对它们进行聚类也是一种选择?我必须做一些聪明的索引技术!!!

0 投票
1 回答
422 浏览

python - vaex 提取一列 str.split()

我想要与这里回答的几乎相同pandas- 但想在vaex.
就像vaex惰性副本一样,对我来说,将(我的两列)保存str.split到 vaex-df 中是可以的。但没有什么像expand=True

0 投票
1 回答
192 浏览

python - 如何通过Vaex计算几列的最大值?

我想有效地计算一个非常大的数据集中几列的最大值(axis = 1),而我现在使用的代码是:df["ia_timestamp"] = df[labels].values.max(axis=1). 这里 df 是 Vaex 中的 DataFrame。
我认为将“值”转换为 numpy.array 的步骤非常耗时,那么有更好的方法吗?

0 投票
0 回答
40 浏览

python-3.x - vaex:熊猫 first() 或 last() 等价于什么

在熊猫我会这样做:

vaex 中的等价物是什么?有没有可能做类似的事情?

0 投票
1 回答
58 浏览

python - ValueError:字符串比较不支持操作数“!=”

我想将值与字符串进行比较

我做了

我收到此错误ValueError:operand '!=' not supported for string comparison

0 投票
1 回答
111 浏览

pandas - pd.isnull().sum() 的 Vaex 命令是什么?

有人请给我这个代码的 VAEX 替代方案:

0 投票
1 回答
503 浏览

pandas - Arrow IPC 与 Feather

Arrow IPC 和 Feather 有什么区别?

官方文档说:

版本 2 (V2),默认版本,在磁盘上完全表示为 Arrow IPC 文件格式。V2 文件支持存储所有 Arrow 数据类型以及使用 LZ4 或 ZSTD 进行压缩。V2 最初是在 Apache Arrow 0.17.0 中提供的。

vaex是 pandas 的替代品,具有两种不同的功能,一种用于 Arrow IPC,另一种用于 Feather。polars是另一个 pandas 替代品,表明 Arrow IPC 和 Feather 是相同的。

0 投票
0 回答
38 浏览

python - 将 SQL 表转储到 FILE 并应用自定义函数?

我有一种情况,编写 PL/pgSQL 函数解决方案既慢又麻烦,而且可能不可能,因为我需要许多 python 模块。这就是为什么我想选择 VAEX 或 DASK。

计划:将 SQL 表转储到文件中,然后应用 func。

伪代码:

然后对于 FILE 循环中的每一行并找到最高的重叠。

伪代码:

即循环内循环。

我说的是约 100 万行。

olap()功能仅用于说明。真正的乐趣要复杂得多,但仍然接受两个数组作为参数。

哪种工具更适合这种情况?

如何将 SQL 表转储到 numpy|panda|?什么格式适合可变数组字段?

我想使用并行化功能?

完成后,我必须将结果导入 SQL 表。

过程任何部分的任何示例。

到目前为止我发现了什么:

  • DASK 似乎有一些 func sql_to_table()。这有点令人困惑。看来我必须先在内存中创建 DF 然后保存到文件。

  • 有点难以理解 .apply() 用户函数是如何工作的,似乎两个工具都支持它

0 投票
1 回答
73 浏览

python - 注册带有附加参数的函数?

有没有办法用额外的参数定义一个函数?

我的功能目前以下列方式工作:

我希望它大致像这样工作:

目前我做:

从我读过的内容来看,它没有优化,没有抖动和缓慢,因为它是从“外部”应用的