问题标签 [vaex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - vaex - 从列表列表创建数据框
在 Vaex 的文档中,我找不到从列表列表创建数据框的方法。
在熊猫中,我会简单地做pd.DataFrame([['A',1,3], ['B',2,4]])
。这如何在 Vaex 中完成?
python - Vaex:替换列名中的单个字符
我有一个列名中带有点分隔符的数据集,即name_1.0
. 我了解 vaex 将这些列更改为name_1_0
. 我想.drop()
用于我的数据框。但是,我觉得,包含点分隔符的列名是不可能的。如何仅替换每个列名中的一个字符?有熊猫的类似物.columns
吗?我的意思是,在熊猫中,它可以很容易地通过
df.columns = df.columns.str.replace(',', '_')
但在我的情况下(我有 >50 列)使用df.rename
点分隔符并显式更改每一列是完全不可能的
python - Xgboost 与 vaex
我想澄清一下:是否vaex.ml.sklearn
允许执行核外 ML?我尝试使用文档中的示例,看看如果我在 xgboosting 过程中使用来自 hdf5 文件的数据集(评估的数据集消耗约 3 Gb 的 RAM),则 RAM 使用量约为 7-8 Gb。天真地,我假设核外不消耗这么多内存。我错了什么?
我的代码是
features
大约 40 个项目的列表在哪里。
python - ModuleNotFoundError:没有名为“vaex.remote”的模块
我试图vaex
从 Anaconda Navigator 安装应用程序,但无法启动并出现错误:ModuleNotFoundError: No module named 'vaex.remote'
. 一切都安装了,我什至重新安装了一切,没有更好的结果:
任何想法?
python - 合并两个大数据帧时出现内存错误
我可以使用一些帮助。
主要问题是用它们的纬度和经度计算两点之间的距离。我们将巴西划分为 33k 个六边形,列在下面的数据框中:
我一直在尝试将此数据框与其副本合并,因此我将拥有一个包含这些六边形的所有组合的 10 亿行数据框,并使用此函数计算它们之间的距离:
我尝试将它们与 Pandas 合并,但出现内存错误(需要 8GB),所以我使用 Vaex 库将数据转换为 hdf5 文件。但是,当我尝试将这些与此代码合并时,我得到了同样的错误。
有没有人经历过这样的事情?我提前感谢您的帮助。
另外,如果您有任何替代解决方案,我很高兴听到!
sql - Oracle SQL:如何最好地计算时间间隔中有多少值?数据库查询与熊猫(或更高效的库)?
我目前必须全神贯注地编写以下任务。情况:假设我们有一列有时间数据(年-月-日时-分)。我们的程序将获取输入(工作日、开始时间、结束时间、时间段),并且我们希望返回值最少的间隔(由时间段指定)。有关更多信息,该数据库有数百万个条目。所以我们的程序将被指定为
示例:假设我们要输入
在这里,我们要计算 10:00 到 12:00 点之间有多少条目,并计算每个 30 分钟时段(即 10:00 - 10:30、10:01 - 10)中的值的数量: 31 等)并最终返回具有最小值的插槽。您将如何制定有效的查询?
由于我正在使用 Oracle SQL 数据库,我的第二个问题是:使用 Dask 或 Vaex 等库来完成过滤和计数会更有效吗?这种情况下的瓶颈在哪里?
如果配方太模糊,很高兴提供更多信息。
一切顺利。
python - 从 3 个大型 tsv/csv 文件中提取和组合数据
我有 3 个大 tsv 文件,结构如下:
我想创建从其他文件中提取的第三个文件:
目前我不能,因为只是试图加载 panda|vaex 中的一个文件会使进程崩溃,因为它试图读取整个文件..
怎么做.. ?
我将在 vaex 中使用生成的文件......我认为它仍然是 ~1G
接着 :
bigdata - 我们可以将 .txt 文件加载到 vaex 吗?
我有 .txt 文件的文件夹,大小为 52.6 GB。.txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签(“F”,“G”)的所有 .txt 文件合并到一个文件中。我尝试使用vaex。但我找不到为 .txt 文件执行此操作的方法。有人可以帮我吗?
python - Vaex 数据框和表达式:每第 n 行过滤一次(Python)
我有一些包含 [X,Y,Z,Sensor_0,...,Sensor_n] 值的相当大的 hdf 文件(10e9 行,大约 100Gb)。对于处理,我使用的是 vaex,它给了我很好和快速的结果。但是,我正在努力解决以下问题:
我还没有找到一种方法来制作一个新的表达式对象,只用 df 的每 n 行。在熊猫中,我会这样做:df_new_nth_X = df.X[::50] 只获取新df的每50个值,这显然对我的df非常消耗内存。
所以我想“过滤”vaex df,或者在制作一个数组之前制作一个只包含每个第n个值的表达式对象。
这些问题似乎是非常基本的问题,但在阅读文档后我还没有找到解决方案。我什至不确定这对于内存映射对象是否可能......
最好的问候巴斯蒂安