问题标签 [vaex]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

128 问题

0 投票

0 回答

36 浏览

bigdata - vaex 数据框是否不支持数据生成

我有一个带有模式的数据集，

BIKE_ID	REGN_NUMBER	ENGINE_NUMBER	车架号	BUYED_YEAR
1	XN67TY567	34567ABGN65	145089	2011
2	XN67TM567	34567ABGT65	145085	2011
3	XN67TM569	34567VBGT65	1450867	2013
.	.	.	.	.
.	.	.	.	.
2870763	XN56RTMN	34786VHGT65	14501236	2016 年

现在我想生成从 28,70,764 到大约 3,28,70,764 的数据，即生成大约 3000 万行 ，以便在 pandas 中我们可以使用以下方法。

但由于它是大熊猫无法生成的大量数据，所以有什么方法可以通过在 Vaex 中解决这个问题。

但是 Vaex 给我一个错误 ValueError: range(2870764, 5870764) is not of string or Expression type, but <class 'range'>

那么，任何人都可以建议我是否可以在Vaex中这样做。

2021-05-05T07:50:51.730

0 投票

0 回答

50 浏览

python - 聚类数百万个大型二元向量？

我想生成数百万个大型二进制向量（10_000 ... 100_000 位）。然后我想通过 OVERLAP (AND) 对它们进行聚类。之后，我想根据聚类对向量重新排序并保存以备后用。

Scipy 有一种聚类方法，但它可能不适用于如此大的数据集。Numpy 不会工作，因为我会内存不足。Vaex 可能会工作，但我必须自己编写聚类算法，它会在 python 中，所以它会很慢并且是只读的。另外我不确定生成数据时使用什么格式：csv，hdf5 ??

任何可能的解决方案？任何其他工具或技术？

如果可能的话，在生成它们时对它们进行聚类也是一种选择？我必须做一些聪明的索引技术！！！

python vector binary hierarchical-clustering vaex

2021-05-05T16:26:39.360

0 投票

1 回答

422 浏览

python - vaex 提取一列 str.split()

我想要与这里回答的几乎相同pandas- 但想在vaex.
就像vaex惰性副本一样，对我来说，将（我的两列）保存str.split到 vaex-df 中是可以的。但没有什么像expand=True。

python vaex

2021-05-18T10:00:37.677

0 投票

1 回答

192 浏览

python - 如何通过Vaex计算几列的最大值？

我想有效地计算一个非常大的数据集中几列的最大值（axis = 1），而我现在使用的代码是：df["ia_timestamp"] = df[labels].values.max(axis=1). 这里 df 是 Vaex 中的 DataFrame。
我认为将“值”转换为 numpy.array 的步骤非常耗时，那么有更好的方法吗？

python vaex

2021-05-23T08:35:39.153

0 投票

0 回答

40 浏览

python-3.x - vaex：熊猫 first() 或 last() 等价于什么

在熊猫我会这样做：

vaex 中的等价物是什么？有没有可能做类似的事情？

python-3.x pandas vaex

2021-05-30T15:33:37.483

0 投票

1 回答

58 浏览

python - ValueError：字符串比较不支持操作数“！=”

我想将值与字符串进行比较

我做了

我收到此错误ValueError:operand '!=' not supported for string comparison

python vaex

2021-06-04T14:50:23.750

0 投票

1 回答

111 浏览

pandas - pd.isnull().sum() 的 Vaex 命令是什么？

有人请给我这个代码的 VAEX 替代方案：

pandas dataframe vaex

2021-06-08T11:56:18.980

0 投票

1 回答

503 浏览

pandas - Arrow IPC 与 Feather

Arrow IPC 和 Feather 有什么区别？

官方文档说：

版本 2 (V2)，默认版本，在磁盘上完全表示为 Arrow IPC 文件格式。V2 文件支持存储所有 Arrow 数据类型以及使用 LZ4 或 ZSTD 进行压缩。V2 最初是在 Apache Arrow 0.17.0 中提供的。

而vaex是 pandas 的替代品，具有两种不同的功能，一种用于 Arrow IPC，另一种用于 Feather。polars是另一个 pandas 替代品，表明 Arrow IPC 和 Feather 是相同的。

pandas apache-arrow feather vaex

2021-06-09T19:31:43.070

0 投票

0 回答

38 浏览

python - 将 SQL 表转储到 FILE 并应用自定义函数？

我有一种情况，编写 PL/pgSQL 函数解决方案既慢又麻烦，而且可能不可能，因为我需要许多 python 模块。这就是为什么我想选择 VAEX 或 DASK。

计划：将 SQL 表转储到文件中，然后应用 func。

伪代码：

然后对于 FILE 循环中的每一行并找到最高的重叠。

伪代码：

即循环内循环。

我说的是约 100 万行。

olap()功能仅用于说明。真正的乐趣要复杂得多，但仍然接受两个数组作为参数。

哪种工具更适合这种情况？

如何将 SQL 表转储到 numpy|panda|？什么格式适合可变数组字段？

我想使用并行化功能？

完成后，我必须将结果导入 SQL 表。

过程任何部分的任何示例。

到目前为止我发现了什么：

DASK 似乎有一些 func sql_to_table()。这有点令人困惑。看来我必须先在内存中创建 DF 然后保存到文件。
有点难以理解 .apply() 用户函数是如何工作的，似乎两个工具都支持它

python postgresql user-defined-functions dask vaex

2021-06-11T04:25:14.897

0 投票

1 回答

73 浏览

python - 注册带有附加参数的函数？

有没有办法用额外的参数定义一个函数？

我的功能目前以下列方式工作：

我希望它大致像这样工作：

目前我做：

从我读过的内容来看，它没有优化，没有抖动和缓慢，因为它是从“外部”应用的

python vaex

2021-06-12T16:17:16.847

1 2 3 4 5 6 7 8 9 10

问题标签 [vaex]

Reference