问题标签 [feather]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
356 浏览

pandas - 永远将熊猫数据框从谷歌 colab 会话保存到我的谷歌驱动器

我将我的谷歌驱动器安装在我的 colab 笔记本中,并且我有一个相当大的熊猫数据框并尝试 mydf.to_feather(path) 路径在我的谷歌驱动器中。预计它有 100 兆大,而且需要很长时间。

这是可以预料的吗?似乎 colab 和 google drive 之间的网络链接不是很好。任何人都知道服务器是否在同一地区/地区?

我可能需要更改我的工作流程以避免这种情况。如果您有任何最佳实践或建议,请告诉我,如果没有使用所有 GCP(我希望没有这种延迟)。

0 投票
2 回答
4112 浏览

python-3.x - 将大型 Pandas df 保存到 hdf 时出现溢出错误

我有一个大的 Pandas 数据框(~15GB,83m 行),我有兴趣将其保存为h5(或feather)文件。一列包含长 ID 数字字符串,应具有字符串/对象类型。但即使我确保 pandas 将所有列解析为object

我收到此错误:

显然它无论如何都试图将其转换为 int 并且失败了。

运行时df.to_feather()我有类似的问题:

所以:

  1. 是否有任何看起来像数字的东西被强制转换为存储中的数字?
  2. NaN 的存在会影响这里发生的事情吗?
  3. 是否有替代存储解决方案?什么是最好的?
0 投票
0 回答
54 浏览

r - R羽毛整数64保留大数

我有一个包含大量数字的数据集:

但是,当我使用 R 羽毛保存此数据并重新加载时,不会保留大量数字。

这是 integer64 类型的真正问题吗?我应该怎么做才能保留这么大的数字?

0 投票
1 回答
1093 浏览

python - 将文件夹中的许多羽毛文件加载到dask

使用包含许多.feather文件的文件夹,我想将它们全部加载到 python 中的 dask 中。

到目前为止,我已经尝试了以下来自 GitHub 上的类似问题https://github.com/dask/dask/issues/1277

不幸的是,这给了我 TypeError: Truth of Delayed objects is not supported那里提到的错误,但解决方法尚不清楚。

是否可以在 dask 中执行上述操作?

0 投票
1 回答
1817 浏览

python - 为什么羽毛需要pyarrow?(或:如何在不降级到 pandas 24 的情况下加载羽毛数据?)

我收到此错误消息:Missing optional dependency 'pyarrow'. Use pip or conda to install pyarrow.当我运行一个简单的命令来加载羽毛数据时,即:pd.read_feather("data.feather").

当然,我可以从 conda-forge 安装 pyarrow,但这会强制从 Pandas 25 降级到 Pandas 24。这对我来说没有意义。

我想保留 Pandas 25加载羽毛文件。如何进行?

0 投票
1 回答
613 浏览

feather - 如何压缩和解压缩 Arrow 或 Feather 文件?

我计划将数据文件格式从镶木地板更改为羽毛。Parquet 有压缩选项(lz4 等),我已经使用过它们。但我在羽毛或箭头文件中找不到它们。不支持压缩吗?

0 投票
0 回答
45 浏览

python - 将 300 个短时间序列作为 pandas 数据帧远程存储和检索的最快方法

我有一个包含大约 300 个 Pandas 时间序列的数组,每个时间序列不超过 6 列,不超过 10.000 行。

我需要将它们存储在可以从其他机器访问的单独的持久性机器中。其他机器会非常频繁地读取这些数据,我需要尽可能快地读取这些数据。

最初,我将每一行存储为 PostgreSQL 行。

然后我切换到arctic,如果我使用线程,性能提升确实令人印象深刻:

我在这里发布了基准:https ://github.com/manahl/arctic/issues/814

北极基于 MongoDB,其中数据帧被腌制,然后使用唯一键存储和检索。

有了这个,我可以在 3 秒内从 Atlas 免费层 MongoDB 实例加载我的数据帧。

有什么办法可以更快地完成吗?

像 Feather 和 Parquet 这样的解决方案是否意味着只存储在文件系统上?如果是,如何在不影响读取性能的情况下远程共享此文件系统?如果我将腌制的数据框存储在 Postgres 中,那会是一个坏主意吗?

我研究了很多不同的解决方案,但它们都关注单个数据框的大小而不是单独数据框的数量。我的数据框相对较小,但它们很多,我需要多次阅读它们。

0 投票
1 回答
653 浏览

python - Pandas 的羽毛格式在写一列 None 时很慢

我正在测试羽毛格式作为存储熊猫 DataFrame 文件的一种方式。在编写完全由 None 组成的列时,feather 的性能似乎非常差(info() 给出 0 个非空对象)。以下代码很好地封装了这个问题:

我正在使用羽毛格式 0.4.0、熊猫 0.23.4 和 pyarrow 0.13.0。

我怎样才能让这些类型的 DataFrames 保存而不需要永远?

0 投票
1 回答
466 浏览

python - 如何从羽毛字节对象读入数据帧

我在熊猫数据框中有字节对象(它是羽毛数据):

df[0]:

0 b'FEA1\x00\x00\x00\x00\x05\x00\x00\x00\x00\x00... 名称:0,dtype:对象

如何将对象从 df[0](羽化数据)反序列化到数据帧中?

0 投票
0 回答
940 浏览

python - Python中“导入羽毛”的ImportError

我正在尝试在我的环境中安装羽毛,但它一直在“导入羽毛”上崩溃。错误信息是:

解决此问题的任何帮助。在 Anaconda Prompt 中,我使用了