问题标签 [vaex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
556 浏览

python - vaex - 从列表列表创建数据框

在 Vaex 的文档中,我找不到从列表列表创建数据框的方法。

在熊猫中,我会简单地做pd.DataFrame([['A',1,3], ['B',2,4]])。这如何在 Vaex 中完成?

0 投票
1 回答
215 浏览

python - Vaex:替换列名中的单个字符

我有一个列名中带有点分隔符的数据集,即name_1.0. 我了解 vaex 将这些列更改为name_1_0. 我想.drop()用于我的数据框。但是,我觉得,包含点分隔符的列名是不可能的。如何仅替换每个列名中的一个字符?有熊猫的类似物.columns吗?我的意思是,在熊猫中,它可以很容易地通过

df.columns = df.columns.str.replace(',', '_')

但在我的情况下(我有 >50 列)使用df.rename点分隔符并显式更改每一列是完全不可能的

0 投票
1 回答
132 浏览

python - Xgboost 与 vaex

我想澄清一下:是否vaex.ml.sklearn允许执行核外 ML?我尝试使用文档中的示例,看看如果我在 xgboosting 过程中使用来自 hdf5 文件的数据集(评估的数据集消耗约 3 Gb 的 RAM),则 RAM 使用量约为 7-8 Gb。天真地,我假设核外不消耗这么多内存。我错了什么?

我的代码是

features大约 40 个项目的列表在哪里。

0 投票
1 回答
630 浏览

python - ModuleNotFoundError:没有名为“vaex.remote”的模块

我试图vaex从 Anaconda Navigator 安装应用程序,但无法启动并出现错误:ModuleNotFoundError: No module named 'vaex.remote'. 一切都安装了,我什至重新安装了一切,没有更好的结果:

任何想法?

0 投票
1 回答
166 浏览

python - Vaex 无法打开 pandas 创建的 hdf5

我收到此错误:

是的,我已经安装了 vaex-hdf5

这是我试图在 vaex 中打开的 hdf5 的屏幕截图,在 pandas 中打开:
在此处输入图像描述

任何帮助表示赞赏。谢谢。

0 投票
1 回答
71 浏览

python - 合并两个大数据帧时出现内存错误

我可以使用一些帮助。

主要问题是用它们的纬度和经度计算两点之间的距离。我们将巴西划分为 33k 个六边形,列在下面的数据框中:

图片

我一直在尝试将此数据框与其副本合并,因此我将拥有一个包含这些六边形的所有组合的 10 亿行数据框,并使用此函数计算它们之间的距离:

我尝试将它们与 Pandas 合并,但出现内存错误(需要 8GB),所以我使用 Vaex 库将数据转换为 hdf5 文件。但是,当我尝试将这些与此代码合并时,我得到了同样的错误。

有没有人经历过这样的事情?我提前感谢您的帮助。

另外,如果您有任何替代解决方案,我很高兴听到!

0 投票
2 回答
65 浏览

sql - Oracle SQL:如何最好地计算时间间隔中有多少值?数据库查询与熊猫(或更高效的库)?

我目前必须全神贯注地编写以下任务。情况:假设我们有一列有时间数据(年-月-日时-分)。我们的程序将获取输入(工作日、开始时间、结束时间、时间段),并且我们希望返回值最少的间隔(由时间段指定)。有关更多信息,该数据库有数百万个条目。所以我们的程序将被指定为

示例:假设我们要输入

在这里,我们要计算 10:00 到 12:00 点之间有多少条目,并计算每个 30 分钟时段(即 10:00 - 10:30、10:01 - 10)中的值的数量: 31 等)并最终返回具有最小值的插槽。您将如何制定有效的查询?

由于我正在使用 Oracle SQL 数据库,我的第二个问题是:使用 Dask 或 Vaex 等库来完成过滤和计数会更有效吗?这种情况下的瓶颈在哪里?

如果配方太模糊,很高兴提供更多信息。

一切顺利。

0 投票
2 回答
170 浏览

python - 从 3 个大型 tsv/csv 文件中提取和组合数据

我有 3 个大 tsv 文件,结构如下:

我想创建从其他文件中提取的第三个文件:

目前我不能,因为只是试图加载 panda|vaex 中的一个文件会使进程崩溃,因为它试图读取整个文件..

怎么做.. ?

我将在 vaex 中使用生成的文件......我认为它仍然是 ~1G


接着 :

0 投票
1 回答
221 浏览

bigdata - 我们可以将 .txt 文件加载到 vaex 吗?

我有 .txt 文件的文件夹,大小为 52.6 GB。.txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签(“F”,“G”)的所有 .txt 文件合并到一个文件中。我尝试使用vaex。但我找不到为 .txt 文件执行此操作的方法。有人可以帮我吗?

0 投票
1 回答
448 浏览

python - Vaex 数据框和表达式:每第 n 行过滤一次(Python)

我有一些包含 [X,Y,Z,Sensor_0,...,Sensor_n] 值的相当大的 hdf 文件(10e9 行,大约 100Gb)。对于处理,我使用的是 vaex,它给了我很好和快速的结果。但是,我正在努力解决以下问题:

我还没有找到一种方法来制作一个新的表达式对象,只用 df 的每 n 行。在熊猫中,我会这样做:df_new_nth_X = df.X[::50] 只获取新df的每50个值,这显然对我的df非常消耗内存。

所以我想“过滤”vaex df,或者在制作一个数组之前制作一个只包含每个第n个值的表达式对象。

这些问题似乎是非常基本的问题,但在阅读文档后我还没有找到解决方案。我什至不确定这对于内存映射对象是否可能......

最好的问候巴斯蒂安