问题标签 [vaex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2295 浏览

python - Python Vaex 数据类型转换

我正在将 Python 中的 Vaex 库用于一个项目;我对 Vaex 还是很陌生,所以如果这是初级的,我很抱歉。我遇到了数据类型转换的问题。我的一列“Paid_at”的数据类型为 str,它应该是 DateTime。 df_paid.info

到目前为止,我所做的是从我的 df 中删除 na 以及(尝试)使用 pandas 的 to_datetime() 来转换列,但它不起作用。这在 pd 数据框中有效,但我做错了,因为我收到以下错误

-------------------------------------------------- ------------------------- ValueError Traceback(最近一次通话最后一次)在----> 1 df_paid['Paid_at'] = pd.to_datetime (df['Paid_at'], errors='coerce')

F:\Anaconda3\lib\site-packages\vaex\dataframe.py in setitem (self, name, value) 4431 self.add_column(name, value)
4432 else: -> 4433 self.add_virtual_column(name, value) 4434 else : 4435 raise TypeError(' setitem只接受字符串作为参数,而不是 {}'.format(type(name)))

F:\Anaconda3\lib\site-packages\vaex\dataframe.py in add_virtual_column(self, name, expression, unique) 3249
'# 我们重写所有现有的表达式(包括向下传递的表达式参数) 3250 self._rename(name,重命名)-> 3251 表达式 = _ensure_string_from_expression(表达式)3252 3253 名称 = vaex.utils.find_valid_name(名称,使用 = [] 如果不是唯一的,则 self.get_column_names())

F:\Anaconda3\lib\site-packages\vaex\utils.py in _ensure_string_from_expression(expression) 764 return expression.expression 765 else: --> 766 raise ValueError('%r 不是字符串或表达式类型,而是 %r ' % (表达式, 类型(表达式))) 767 768

ValueError: NaT 不是字符串或表达式类型,而是 <class 'pandas._libs.tslibs.nattype.NaTType'>

我对如何将 Paid_at 列变为可以聚合的 DateTime 有点迷茫。

0 投票
0 回答
486 浏览

python - 带有自定义功能的python vaex groupby

有没有办法使用 vaex DataFrameArray 的 groupby 函数将自定义函数应用于组?

我可以:
df_vaex.groupby(['col_x1','col_x2','col_x3','col_x4'], agg=vaex.agg.mean(df_vaex['col_y']))

但是有没有办法做熊猫:
df.groupby(['col_x1','col_x2','col_x3','col_x4']).apply(lambda x: my_own_function(x['col_y']))

0 投票
1 回答
1304 浏览

python-3.x - 将自定义函数应用于 vaex 中的 groupby

我想将一些自定义逻辑应用于由groupby. 在 pandas 中很容易做到这一点。如何将一些自定义功能应用于由 vaex 中的 groupby 创建的组?

例如,假设我想找到每个组的最小索引和最大索引,并在此基础上对该组中存在的行进行一些操作。这可能在vaex中吗?

0 投票
2 回答
538 浏览

python - 在 python vaex 中删除重复的行

我正在使用 python vaex,但我不知道如何在数据框中删除重复的行。例如在 pandas 中存在方法drop_duplicates()。vaex中是否存在类似的功能?

0 投票
1 回答
73 浏览

python - Vaex 显示数据

我有一个 10.11 GB 的 CSV 文件,我已经使用 dask 转换为 hdf5。它是 str、int 和 float 值的混合。当我尝试用 vaex 阅读它时,我只会得到屏幕截图中给出的数字。有人可以帮我吗?

截屏:

在此处输入图像描述

0 投票
1 回答
1324 浏览

vaex - 将 vaex 数据框中的列从 String 转换为 Float 或 int

我尝试了这个解决方案但它并没有真正解决我的问题

输出

如何将字符串列转换为数字?谢谢。

0 投票
0 回答
405 浏览

python - 使用 from_pandas 从 oracle 数据库到 vaex 的 5000 万条记录

下面的代码来自 vaex 文档:

描述

我的数据多于 RAM。但是,当我使用上面的代码时,它会尝试提取 panda 数据框中的所有数据。所以为了解决这个问题,我使用了提供生成器的 chunksize 属性。

要再次从生成器转换为 pandas 数据帧,它需要内存。下面是我试过的代码。

请帮我解决这个问题。

0 投票
1 回答
1341 浏览

python-3.x - 如何在 Vaex 中删除重复项?

我有一些来自用户的条目,以及该用户在我的网站上进行了多少次互动......

我有 340k 行和 70 多列,我想使用 Vaex,但我在做一些简单的事情时遇到了问题,比如删除重复项。

有人可以帮我怎么做吗?

我希望获得与 pandas.drop_duplicates(keep="last") 函数相同的结果

使用 Vaex 的预期结果应该是:

0 投票
1 回答
718 浏览

python - 如何在 Vaex 中使用命名选择进行过滤

我创建了 2 个命名选择

很酷,我可以使用selection很多(即统计)函数提供的参数,例如

但是还有一种方法可以在过滤器中使用命名选择吗?就像是

0 投票
1 回答
192 浏览

python-3.x - 由于 LLVM,无法在 Python 3.7.5 和 Ubuntu 18.04 上安装 vaex?

尝试使用安装 vaex 包sudo pip3 install vaex

但收到以下错误:

任何人都可以指导我如何解决它?

这是我的lvvm列表: