“pyarrow”的相关标签问题_Stack Overflow中文网

0 投票

7 回答

86550 浏览

python - 如何使用 pyarrow 从 S3 读取镶木地板文件列表作为熊猫数据框？

boto3我有一种使用(1.4.4)、pyarrow(0.4.1) 和pandas(0.20.3)来实现这一目标的 hacky 方法。

首先，我可以像这样在本地读取单个 parquet 文件：

我还可以像这样在本地读取镶木地板文件的目录：

两者都像魅力一样工作。现在我想用存储在 S3 存储桶中的文件远程实现相同的目标。我希望这样的事情会起作用：

但它没有：

OSError: Passed non-file path: s3n://dsn/to/my/bucket

在彻底阅读了 pyarrow 的文档之后，目前这似乎是不可能的。所以我提出了以下解决方案：

从 S3 读取单个文件并获取 pandas 数据框：

这里是我从 S3 文件夹路径创建 pandas 数据框的 hacky、未优化的解决方案：

有没有更好的方法来实现这一目标？也许某种使用pyarrow的熊猫连接器？我想避免使用pyspark，但如果没有其他解决方案，那么我会接受。

2017-07-11T20:01:38.373

0 投票

4 回答

63969 浏览

python - 如何在 python 中使用 pyarrow 从 S3 读取分区镶木地板文件

我正在寻找使用 python 从 s3 中读取多个分区目录的数据的方法。

data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number=2/cur_date=27-12-2012/asdsdfsd0324324.snappy.parquet

pyarrow 的 ParquetDataset 模块具有从分区读取的能力。所以我尝试了以下代码：

它抛出了以下错误：

根据 pyarrow 的文档，我尝试使用 s3fs 作为文件系统，即：

这会引发以下错误：

我仅限于使用 ECS 集群，因此spark/pyspark 不是一个选项。

有没有一种方法可以轻松地从 s3 中的此类分区目录中的 python 中轻松读取镶木地板文件？我觉得列出所有目录然后阅读并不是这个链接中建议的好习惯。我需要将读取的数据转换为 pandas 数据帧以进行进一步处理，因此更喜欢与 fastparquet 或 pyarrow 相关的选项。我也对 python 中的其他选项持开放态度。

python parquet pyarrow fastparquet python-s3fs

2017-07-13T13:56:36.760

0 投票

1 回答

924 浏览

python - pyarrow 导致 python 在 parquet.dll 上崩溃错误

我有一个获取数据的脚本，并将数据存储在 Pandas 数据框中。

我做了 3 个数据聚合，MEAN/STDEV/MAX，每一个都被转换为一个箭头表并作为 parquet 文件保存在磁盘上。

我使用 pyarrow 将 Pandas 框架转换为箭头表。（我无法创建 pyarrow 标签，因为我显然需要更多点）

此代码适用于 100-500 条记录，但对于更大的容量会出错。我也知道这段代码有效，因为另一个开发人员在镜像机器上使用相同的代码（就硬件而言）并且它有效。我要保存的数据集的顺序是数百万。

代码错误出@ line pq.write_table(arrowTable, filePath)。

这是代码：

Python 崩溃并抛出“python 必须关闭错误”。

以下是详细错误：

问题事件名称：APPCRASH 应用程序名称：python.exe 应用程序版本：3.5.2150.1013 应用程序时间戳：577be340 故障模块名称：parquet.dll 故障模块版本：0.0.0.0 故障模块时间戳：59403662 异常代码：c0000005 异常偏移量：000000000005f990 操作系统版本：6.3.9600.2.0.0.400.8 区域设置 ID：1033

在线阅读我们的隐私声明：http: //go.microsoft.com/fwlink/ ?linkid=280262

如果在线隐私声明不可用，请离线阅读我们的隐私声明：C:\Windows\system32\en-US\erofflps.txt

我曾尝试更新 Python 和 pyarrow，但没有成功。

以下是python的版本：

以下是 pip freeze 的结果：

我想知道是否有人可以阐明为什么 pyarrow 不能在某台机器上工作？

谢谢，阿杜

python parquet pyarrow

2017-07-21T14:25:35.543

0 投票

2 回答

1564 浏览