问题标签 [vaex]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

128 问题

0 投票

1 回答

556 浏览

python - vaex - 从列表列表创建数据框

在 Vaex 的文档中，我找不到从列表列表创建数据框的方法。

在熊猫中，我会简单地做pd.DataFrame([['A',1,3], ['B',2,4]])。这如何在 Vaex 中完成？

2020-12-16T09:58:59.937

0 投票

1 回答

215 浏览

python - Vaex：替换列名中的单个字符

我有一个列名中带有点分隔符的数据集，即name_1.0. 我了解 vaex 将这些列更改为name_1_0. 我想.drop()用于我的数据框。但是，我觉得，包含点分隔符的列名是不可能的。如何仅替换每个列名中的一个字符？有熊猫的类似物.columns吗？我的意思是，在熊猫中，它可以很容易地通过

df.columns = df.columns.str.replace(',', '_')

但在我的情况下（我有 >50 列）使用df.rename点分隔符并显式更改每一列是完全不可能的

python pandas vaex

2020-12-18T09:18:19.153

0 投票

1 回答

132 浏览

python - Xgboost 与 vaex

我想澄清一下：是否vaex.ml.sklearn允许执行核外 ML？我尝试使用文档中的示例，看看如果我在 xgboosting 过程中使用来自 hdf5 文件的数据集（评估的数据集消耗约 3 Gb 的 RAM），则 RAM 使用量约为 7-8 Gb。天真地，我假设核外不消耗这么多内存。我错了什么？

我的代码是

features大约 40 个项目的列表在哪里。

python xgboost vaex

2020-12-23T16:17:03.660

0 投票

1 回答

630 浏览

python - ModuleNotFoundError：没有名为“vaex.remote”的模块

我试图vaex从 Anaconda Navigator 安装应用程序，但无法启动并出现错误：ModuleNotFoundError: No module named 'vaex.remote'. 一切都安装了，我什至重新安装了一切，没有更好的结果：

任何想法？

python anaconda vaex

2020-12-24T15:51:37.340

0 投票

1 回答

166 浏览

python - Vaex 无法打开 pandas 创建的 hdf5

我收到此错误：

是的，我已经安装了 vaex-hdf5

这是我试图在 vaex 中打开的 hdf5 的屏幕截图，在 pandas 中打开：

任何帮助表示赞赏。谢谢。

python hdf5 vaex

2021-01-06T23:58:58.210

0 投票

1 回答

71 浏览

python - 合并两个大数据帧时出现内存错误

我可以使用一些帮助。

主要问题是用它们的纬度和经度计算两点之间的距离。我们将巴西划分为 33k 个六边形，列在下面的数据框中：

我一直在尝试将此数据框与其副本合并，因此我将拥有一个包含这些六边形的所有组合的 10 亿行数据框，并使用此函数计算它们之间的距离：

我尝试将它们与 Pandas 合并，但出现内存错误（需要 8GB），所以我使用 Vaex 库将数据转换为 hdf5 文件。但是，当我尝试将这些与此代码合并时，我得到了同样的错误。

有没有人经历过这样的事情？我提前感谢您的帮助。

另外，如果您有任何替代解决方案，我很高兴听到！

python distance latitude-longitude hdf5 vaex

2021-01-21T21:47:11.180

0 投票

2 回答

65 浏览

sql - Oracle SQL：如何最好地计算时间间隔中有多少值？数据库查询与熊猫（或更高效的库）？

我目前必须全神贯注地编写以下任务。情况：假设我们有一列有时间数据（年-月-日时-分）。我们的程序将获取输入（工作日、开始时间、结束时间、时间段），并且我们希望返回值最少的间隔（由时间段指定）。有关更多信息，该数据库有数百万个条目。所以我们的程序将被指定为

示例：假设我们要输入

在这里，我们要计算 10:00 到 12:00 点之间有多少条目，并计算每个 30 分钟时段（即 10:00 - 10:30、10:01 - 10）中的值的数量： 31 等）并最终返回具有最小值的插槽。您将如何制定有效的查询？

由于我正在使用 Oracle SQL 数据库，我的第二个问题是：使用 Dask 或 Vaex 等库来完成过滤和计数会更有效吗？这种情况下的瓶颈在哪里？

如果配方太模糊，很高兴提供更多信息。

一切顺利。

sql pandas oracle-sqldeveloper dask vaex

2021-01-26T18:26:31.010

0 投票

2 回答

170 浏览

python - 从 3 个大型 tsv/csv 文件中提取和组合数据

我有 3 个大 tsv 文件，结构如下：

我想创建从其他文件中提取的第三个文件：

目前我不能，因为只是试图加载 panda|vaex 中的一个文件会使进程崩溃，因为它试图读取整个文件..

怎么做.. ？

我将在 vaex 中使用生成的文件......我认为它仍然是 ~1G

接着：

python pandas csv vaex

2021-02-17T18:42:52.470

0 投票

1 回答

221 浏览

bigdata - 我们可以将 .txt 文件加载到 vaex 吗？

我有 .txt 文件的文件夹，大小为 52.6 GB。.txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签（“F”，“G”）的所有 .txt 文件合并到一个文件中。我尝试使用vaex。但我找不到为 .txt 文件执行此操作的方法。有人可以帮我吗？

bigdata vaex

2021-02-22T16:23:35.813

0 投票

1 回答

448 浏览

python - Vaex 数据框和表达式：每第 n 行过滤一次（Python）

我有一些包含 [X,Y,Z,Sensor_0,...,Sensor_n] 值的相当大的 hdf 文件（10e9 行，大约 100Gb）。对于处理，我使用的是 vaex，它给了我很好和快速的结果。但是，我正在努力解决以下问题：

我还没有找到一种方法来制作一个新的表达式对象，只用 df 的每 n 行。在熊猫中，我会这样做：df_new_nth_X = df.X[::50] 只获取新df的每50个值，这显然对我的df非常消耗内存。

所以我想“过滤”vaex df，或者在制作一个数组之前制作一个只包含每个第n个值的表达式对象。

这些问题似乎是非常基本的问题，但在阅读文档后我还没有找到解决方案。我什至不确定这对于内存映射对象是否可能......

最好的问候巴斯蒂安

python dataframe vaex

2021-03-08T06:48:03.607

1 2 3 4 5 6 7 8 9 10

问题标签 [vaex]

Reference