“feather”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

71 浏览

python - 我可以使用分块将巨大的 .csv 文件转换为 .ftr 吗？

我有一个非常庞大的.csv数据集。

我想将其转换为羽毛格式以便更快地读取/写入。
但是我不能.csv一次将整个文件放入我的 RAM 内存中。
我正在考虑将.csv文件分块然后将其存储为.ftr格式
但是，如果我正确理解这一点，您就不能附加到.ftr正确的位置吗？

你会如何处理这个问题？

我正在考虑将每个块保存到单独的.ftr文件中？

2021-04-05T16:10:37.053

0 投票

0 回答

15 浏览

r - regarding transforming an nd array structure into dataframe and save it using feather library

I generate a variable, e.g., xy_log, in R. It has the following information. Are there ways to transfer it into dataframe. I would like to save it using feather library, and make the saved dataframe used by python program.

r dataframe feather

2021-04-18T00:08:53.447

0 投票

1 回答

123 浏览

r - R包“羽毛”给我错误“check_dots_empty中的错误（动作=信号）：未使用的参数（动作=信号）”

我开始从 R 中的“羽毛”包中收到一个非常奇怪的错误：

假设我写和读文件

最后一个给我

我重新安装了软件包，重新启动了会话，但仍然不知道如何修复它。R 版本 3.6.1 (2019-07-05)

请帮我

r feather

2021-04-18T14:57:19.967

0 投票

2 回答

287 浏览

javascript - 在 GoLang 或 Javascript 中读取 Arrow Feather 文件

我正在寻找一种通过 GoLang 或 Javascript 或其他一些不需要用户进行其他额外安装的语言来读取羽毛文件的方法。

我的目标是提供一个用户界面来读取羽毛 csv 文件并将其转换回人类可读的 csv。但是我找不到太多关于如何解决它的资源。

目前我有一个由下面生成的测试羽毛文件。

提前致谢。

javascript python go apache-arrow feather

2021-04-26T03:03:04.497

0 投票

0 回答

66 浏览

python - 为什么我消耗的内存比 Google Colab 中数据框的大小要多

我无法理解为什么我消耗的 RAM 比<dataframe>.info(memory_usage="deep")Google Colab中显示的实际内存使用量多得多

我有一个实用功能，可以打印一些关于 ram 的信息

我在 Google Colab 中运行以下代码

输出

print_available_ram 显示的信息不可靠吗？
read_feather 是在占用而不是释放一些额外的内存吗？

python pandas dataframe google-colaboratory feather

2021-04-27T00:57:40.320

0 投票

0 回答

39 浏览

javascript - 从箭头文件读取后如何保持尾随零

使用 apache-arrow js ( https://github.com/apache/arrow/tree/master/js )，我只能通过几行读取箭头文件（甚至羽毛文件）。

但是我发现尾随零正在被删除。

在python数据框中（原始数据）

使用 arrow-js 库阅读后：

有没有办法避免尾随零被删除？

==== 更新 ====

补充提出这个问题的原因：我想比较 python Dataframe 和 arrow-js 从/导出的数据之间的数据，并确保 js 的输出与 python dataframe 中的输出完全相同。目前很难进行（苹果对苹果）比较，因为由于这个尾随零问题，许多行显示出差异

javascript python apache-arrow feather

2021-04-29T10:03:24.933

0 投票

1 回答

328 浏览

r - 内存映射文件格式在大于内存文件上运行。箭？

我有一个包含 50K 列、500K 行的矩阵，我想在不使用太多内存（例如内存映射）的情况下快速按列名/索引对其进行子集化。大多数列是 {NA,1,2}，少数 (1%) 列是定量或字符串。R 中的哪些文件格式/框架最适合执行此操作？

我以为我可以为此使用羽毛，但它似乎加载了整个文件并使用了几乎与 data.table 一样多的内存。等效，即使我设置为 as_data_frame=F。

有什么想法吗？

r memory-mapped-files apache-arrow feather

2021-05-12T10:03:41.013

0 投票

1 回答

837 浏览

python - Pyarrow：将流读入熊猫数据帧高内存消耗

我想先将流写入箭头文件，然后再将其读回熊猫数据帧，尽可能少的内存开销。

批量写入数据效果很好：

如上所述写入 100 万行速度很快，并且在整个写入过程中使用大约 40MB 内存。这很好。

但是，在生成大约 118MB 的最终数据帧之前，由于内存消耗高达 2GB，因此回读并不好。

我试过这个：

而这个，具有相同的内存开销：

数据框大小：

我需要的是使用 pyarrow 修复内存使用情况，或者建议我可以使用哪种其他格式来增量写入数据，然后将所有数据读入 pandas 数据帧，而不会产生太多内存开销。

python pandas optimization pyarrow feather

2021-05-15T21:50:49.237

0 投票

0 回答

44 浏览

arduino - 无法使用 ESP32 Feather 读取 Lepton 3.5 帧

我将 Lepton 3.5 连接到 Adafruit ESP32 Feather，并使用了附加在 Arduino 中的这段代码。所以我的问题包括读取相机的帧。使用此代码，我无法在串行监视器上获得任何结果，但如果我删除条件“if (flirController.readNextFrame())”，串行监视器会不断向我显示第一帧的结果，而不是向我显示结果不断。

我已经改变了波特率和时钟，但结果是一样的。

arduino frame esp32 adafruit feather

2021-06-02T14:08:00.783

0 投票

0 回答

107 浏览

c++ - 读取包含数据类型为 arrow::large_utf8() 的列的羽毛文件时出现分段错误

我编写了 c++ 代码来读取羽毛文件并将数据插入到箭头::表中，但是如果文件包含任何数据类型为箭头::large_utf8 的列，则会出现分段错误。它仅针对此数据类型提供段错误，utf8/int/float 数据类型没有错误。

我认为用于读/写的羽毛 API 实现存在问题，因为如果我对镶木地板文件执行相同操作，它就可以正常工作。

我发现了一个与同一问题密切相关的链接，但它与python有关 - https://github.com/pandas-dev/pandas/issues/24767

有人知道为什么会出现这种行为吗？

当我使用 write_to_feather 编写包含任何具有 large_utf8 数据类型的列的表时，我的 read_feather_to_table 函数给出了段错误，而在所有其他情况下，这两个函数都可以正常工作。当我尝试打印上面代码中指定的表格内容时，会发生段错误。

c++parquet apache-arrow feather

2021-06-03T18:38:03.717

问题标签 [feather]

Reference