问题标签 [vaex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bigdata - vaex 数据框是否不支持数据生成
我有一个带有模式的数据集,
BIKE_ID | REGN_NUMBER | ENGINE_NUMBER | 车架号 | BUYED_YEAR |
---|---|---|---|---|
1 | XN67TY567 | 34567ABGN65 | 145089 | 2011 |
2 | XN67TM567 | 34567ABGT65 | 145085 | 2011 |
3 | XN67TM569 | 34567VBGT65 | 1450867 | 2013 |
. | . | . | . | . |
. | . | . | . | . |
2870763 | XN56RTMN | 34786VHGT65 | 14501236 | 2016 年 |
现在我想生成从 28,70,764 到大约 3,28,70,764 的数据,即生成大约 3000 万行 ,以便在 pandas 中我们可以使用以下方法。
但由于它是大熊猫无法生成的大量数据,所以有什么方法可以通过在 Vaex 中解决这个问题。
但是 Vaex 给我一个错误 ValueError: range(2870764, 5870764) is not of string or Expression type, but <class 'range'>
那么,任何人都可以建议我是否可以在Vaex中这样做。
python - 聚类数百万个大型二元向量?
我想生成数百万个大型二进制向量(10_000 ... 100_000 位)。然后我想通过 OVERLAP (AND) 对它们进行聚类。之后,我想根据聚类对向量重新排序并保存以备后用。
Scipy 有一种聚类方法,但它可能不适用于如此大的数据集。Numpy 不会工作,因为我会内存不足。Vaex 可能会工作,但我必须自己编写聚类算法,它会在 python 中,所以它会很慢并且是只读的。另外我不确定生成数据时使用什么格式:csv,hdf5 ??
任何可能的解决方案?任何其他工具或技术?
如果可能的话,在生成它们时对它们进行聚类也是一种选择?我必须做一些聪明的索引技术!!!
python - vaex 提取一列 str.split()
我想要与这里回答的几乎相同pandas
- 但想在vaex
.
就像vaex
惰性副本一样,对我来说,将(我的两列)保存str.split
到 vaex-df 中是可以的。但没有什么像expand=True
。
python - 如何通过Vaex计算几列的最大值?
我想有效地计算一个非常大的数据集中几列的最大值(axis = 1),而我现在使用的代码是:df["ia_timestamp"] = df[labels].values.max(axis=1)
. 这里 df 是 Vaex 中的 DataFrame。
我认为将“值”转换为 numpy.array 的步骤非常耗时,那么有更好的方法吗?
python-3.x - vaex:熊猫 first() 或 last() 等价于什么
在熊猫我会这样做:
vaex 中的等价物是什么?有没有可能做类似的事情?
python - ValueError:字符串比较不支持操作数“!=”
我想将值与字符串进行比较
我做了
我收到此错误ValueError:operand '!=' not supported for string comparison
pandas - pd.isnull().sum() 的 Vaex 命令是什么?
有人请给我这个代码的 VAEX 替代方案:
python - 将 SQL 表转储到 FILE 并应用自定义函数?
我有一种情况,编写 PL/pgSQL 函数解决方案既慢又麻烦,而且可能不可能,因为我需要许多 python 模块。这就是为什么我想选择 VAEX 或 DASK。
计划:将 SQL 表转储到文件中,然后应用 func。
伪代码:
然后对于 FILE 循环中的每一行并找到最高的重叠。
伪代码:
即循环内循环。
我说的是约 100 万行。
olap()
功能仅用于说明。真正的乐趣要复杂得多,但仍然接受两个数组作为参数。
哪种工具更适合这种情况?
如何将 SQL 表转储到 numpy|panda|?什么格式适合可变数组字段?
我想使用并行化功能?
完成后,我必须将结果导入 SQL 表。
过程任何部分的任何示例。
到目前为止我发现了什么:
DASK 似乎有一些 func sql_to_table()。这有点令人困惑。看来我必须先在内存中创建 DF 然后保存到文件。
有点难以理解 .apply() 用户函数是如何工作的,似乎两个工具都支持它
python - 注册带有附加参数的函数?
有没有办法用额外的参数定义一个函数?
我的功能目前以下列方式工作:
我希望它大致像这样工作:
目前我做:
从我读过的内容来看,它没有优化,没有抖动和缓慢,因为它是从“外部”应用的