问题标签 [feather]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

130 问题

0 投票

1 回答

356 浏览

pandas - 永远将熊猫数据框从谷歌 colab 会话保存到我的谷歌驱动器

我将我的谷歌驱动器安装在我的 colab 笔记本中，并且我有一个相当大的熊猫数据框并尝试 mydf.to_feather(path) 路径在我的谷歌驱动器中。预计它有 100 兆大，而且需要很长时间。

这是可以预料的吗？似乎 colab 和 google drive 之间的网络链接不是很好。任何人都知道服务器是否在同一地区/地区？

我可能需要更改我的工作流程以避免这种情况。如果您有任何最佳实践或建议，请告诉我，如果没有使用所有 GCP（我希望没有这种延迟）。

2019-06-05T21:42:35.730

0 投票

2 回答

4112 浏览

python-3.x - 将大型 Pandas df 保存到 hdf 时出现溢出错误

我有一个大的 Pandas 数据框（~15GB，83m 行），我有兴趣将其保存为h5（或feather）文件。一列包含长 ID 数字字符串，应具有字符串/对象类型。但即使我确保 pandas 将所有列解析为object：

我收到此错误：

显然它无论如何都试图将其转换为 int 并且失败了。

运行时df.to_feather()我有类似的问题：

所以：

是否有任何看起来像数字的东西被强制转换为存储中的数字？
NaN 的存在会影响这里发生的事情吗？
是否有替代存储解决方案？什么是最好的？

python-3.x pandas hdf feather

2019-07-17T14:56:05.183

0 投票

0 回答

54 浏览

r - R羽毛整数64保留大数

我有一个包含大量数字的数据集：

但是，当我使用 R 羽毛保存此数据并重新加载时，不会保留大量数字。

这是 integer64 类型的真正问题吗？我应该怎么做才能保留这么大的数字？

r feather bit64 integer64

2019-07-26T03:43:20.113

0 投票

1 回答

1093 浏览

python - 将文件夹中的许多羽毛文件加载到dask

使用包含许多.feather文件的文件夹，我想将它们全部加载到 python 中的 dask 中。

到目前为止，我已经尝试了以下来自 GitHub 上的类似问题https://github.com/dask/dask/issues/1277

不幸的是，这给了我 TypeError: Truth of Delayed objects is not supported那里提到的错误，但解决方法尚不清楚。

是否可以在 dask 中执行上述操作？

python pandas dask feather

2019-08-08T00:53:48.353

0 投票

1 回答

1817 浏览

python - 为什么羽毛需要pyarrow？（或：如何在不降级到 pandas 24 的情况下加载羽毛数据？）

我收到此错误消息：Missing optional dependency 'pyarrow'. Use pip or conda to install pyarrow.当我运行一个简单的命令来加载羽毛数据时，即：pd.read_feather("data.feather").

当然，我可以从 conda-forge 安装 pyarrow，但这会强制从 Pandas 25 降级到 Pandas 24。这对我来说没有意义。

我想保留 Pandas 25并加载羽毛文件。如何进行？

python pandas pyarrow feather

2019-08-13T21:21:08.567

0 投票

1 回答

613 浏览

feather - 如何压缩和解压缩 Arrow 或 Feather 文件？

我计划将数据文件格式从镶木地板更改为羽毛。Parquet 有压缩选项（lz4 等），我已经使用过它们。但我在羽毛或箭头文件中找不到它们。不支持压缩吗？

feather apache-arrow

2019-08-28T05:00:30.133

0 投票

0 回答

45 浏览

python - 将 300 个短时间序列作为 pandas 数据帧远程存储和检索的最快方法

我有一个包含大约 300 个 Pandas 时间序列的数组，每个时间序列不超过 6 列，不超过 10.000 行。

我需要将它们存储在可以从其他机器访问的单独的持久性机器中。其他机器会非常频繁地读取这些数据，我需要尽可能快地读取这些数据。

最初，我将每一行存储为 PostgreSQL 行。

然后我切换到arctic，如果我使用线程，性能提升确实令人印象深刻：

我在这里发布了基准：https ://github.com/manahl/arctic/issues/814

北极基于 MongoDB，其中数据帧被腌制，然后使用唯一键存储和检索。

有了这个，我可以在 3 秒内从 Atlas 免费层 MongoDB 实例加载我的数据帧。

有什么办法可以更快地完成吗？

像 Feather 和 Parquet 这样的解决方案是否意味着只存储在文件系统上？如果是，如何在不影响读取性能的情况下远程共享此文件系统？如果我将腌制的数据框存储在 Postgres 中，那会是一个坏主意吗？

我研究了很多不同的解决方案，但它们都关注单个数据框的大小而不是单独数据框的数量。我的数据框相对较小，但它们很多，我需要多次阅读它们。

python pandas parquet feather

2019-09-07T12:28:33.617

0 投票

1 回答

653 浏览

python - Pandas 的羽毛格式在写一列 None 时很慢

我正在测试羽毛格式作为存储熊猫 DataFrame 文件的一种方式。在编写完全由 None 组成的列时，feather 的性能似乎非常差（info() 给出 0 个非空对象）。以下代码很好地封装了这个问题：

我正在使用羽毛格式 0.4.0、熊猫 0.23.4 和 pyarrow 0.13.0。

我怎样才能让这些类型的 DataFrames 保存而不需要永远？

python pandas pyarrow feather

2019-09-10T19:20:20.337

0 投票

1 回答

466 浏览

python - 如何从羽毛字节对象读入数据帧

我在熊猫数据框中有字节对象（它是羽毛数据）：

df[0]：

0 b'FEA1\x00\x00\x00\x00\x05\x00\x00\x00\x00\x00... 名称：0，dtype：对象

如何将对象从 df[0]（羽化数据）反序列化到数据帧中？

python pandas deserialization feather

2019-09-23T16:25:23.930

0 投票

0 回答

940 浏览

python - Python中“导入羽毛”的ImportError

我正在尝试在我的环境中安装羽毛，但它一直在“导入羽毛”上崩溃。错误信息是：

解决此问题的任何帮助。在 Anaconda Prompt 中，我使用了

python python-3.x python-requests feather

2019-10-08T22:40:08.903

1 2 3 4 5 6 7 8 9 10

问题标签 [feather]

Reference