问题标签 [feather]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - 永远将熊猫数据框从谷歌 colab 会话保存到我的谷歌驱动器
我将我的谷歌驱动器安装在我的 colab 笔记本中,并且我有一个相当大的熊猫数据框并尝试 mydf.to_feather(path) 路径在我的谷歌驱动器中。预计它有 100 兆大,而且需要很长时间。
这是可以预料的吗?似乎 colab 和 google drive 之间的网络链接不是很好。任何人都知道服务器是否在同一地区/地区?
我可能需要更改我的工作流程以避免这种情况。如果您有任何最佳实践或建议,请告诉我,如果没有使用所有 GCP(我希望没有这种延迟)。
python-3.x - 将大型 Pandas df 保存到 hdf 时出现溢出错误
我有一个大的 Pandas 数据框(~15GB,83m 行),我有兴趣将其保存为h5
(或feather
)文件。一列包含长 ID 数字字符串,应具有字符串/对象类型。但即使我确保 pandas 将所有列解析为object
:
我收到此错误:
显然它无论如何都试图将其转换为 int 并且失败了。
运行时df.to_feather()
我有类似的问题:
所以:
- 是否有任何看起来像数字的东西被强制转换为存储中的数字?
- NaN 的存在会影响这里发生的事情吗?
- 是否有替代存储解决方案?什么是最好的?
r - R羽毛整数64保留大数
我有一个包含大量数字的数据集:
但是,当我使用 R 羽毛保存此数据并重新加载时,不会保留大量数字。
这是 integer64 类型的真正问题吗?我应该怎么做才能保留这么大的数字?
python - 将文件夹中的许多羽毛文件加载到dask
使用包含许多.feather
文件的文件夹,我想将它们全部加载到 python 中的 dask 中。
到目前为止,我已经尝试了以下来自 GitHub 上的类似问题https://github.com/dask/dask/issues/1277
不幸的是,这给了我 TypeError: Truth of Delayed objects is not supported
那里提到的错误,但解决方法尚不清楚。
是否可以在 dask 中执行上述操作?
python - 为什么羽毛需要pyarrow?(或:如何在不降级到 pandas 24 的情况下加载羽毛数据?)
我收到此错误消息:Missing optional dependency 'pyarrow'. Use pip or conda to install pyarrow.
当我运行一个简单的命令来加载羽毛数据时,即:pd.read_feather("data.feather")
.
当然,我可以从 conda-forge 安装 pyarrow,但这会强制从 Pandas 25 降级到 Pandas 24。这对我来说没有意义。
我想保留 Pandas 25并加载羽毛文件。如何进行?
feather - 如何压缩和解压缩 Arrow 或 Feather 文件?
我计划将数据文件格式从镶木地板更改为羽毛。Parquet 有压缩选项(lz4 等),我已经使用过它们。但我在羽毛或箭头文件中找不到它们。不支持压缩吗?
python - 将 300 个短时间序列作为 pandas 数据帧远程存储和检索的最快方法
我有一个包含大约 300 个 Pandas 时间序列的数组,每个时间序列不超过 6 列,不超过 10.000 行。
我需要将它们存储在可以从其他机器访问的单独的持久性机器中。其他机器会非常频繁地读取这些数据,我需要尽可能快地读取这些数据。
最初,我将每一行存储为 PostgreSQL 行。
然后我切换到arctic,如果我使用线程,性能提升确实令人印象深刻:
我在这里发布了基准:https ://github.com/manahl/arctic/issues/814
北极基于 MongoDB,其中数据帧被腌制,然后使用唯一键存储和检索。
有了这个,我可以在 3 秒内从 Atlas 免费层 MongoDB 实例加载我的数据帧。
有什么办法可以更快地完成吗?
像 Feather 和 Parquet 这样的解决方案是否意味着只存储在文件系统上?如果是,如何在不影响读取性能的情况下远程共享此文件系统?如果我将腌制的数据框存储在 Postgres 中,那会是一个坏主意吗?
我研究了很多不同的解决方案,但它们都关注单个数据框的大小而不是单独数据框的数量。我的数据框相对较小,但它们很多,我需要多次阅读它们。
python - Pandas 的羽毛格式在写一列 None 时很慢
我正在测试羽毛格式作为存储熊猫 DataFrame 文件的一种方式。在编写完全由 None 组成的列时,feather 的性能似乎非常差(info() 给出 0 个非空对象)。以下代码很好地封装了这个问题:
我正在使用羽毛格式 0.4.0、熊猫 0.23.4 和 pyarrow 0.13.0。
我怎样才能让这些类型的 DataFrames 保存而不需要永远?
python - 如何从羽毛字节对象读入数据帧
我在熊猫数据框中有字节对象(它是羽毛数据):
df[0]:
0 b'FEA1\x00\x00\x00\x00\x05\x00\x00\x00\x00\x00... 名称:0,dtype:对象
如何将对象从 df[0](羽化数据)反序列化到数据帧中?
python - Python中“导入羽毛”的ImportError
我正在尝试在我的环境中安装羽毛,但它一直在“导入羽毛”上崩溃。错误信息是:
解决此问题的任何帮助。在 Anaconda Prompt 中,我使用了