问题标签 [fastparquet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
617 浏览

dask - 如何有效地加入多个 dask 数据帧

我有 33 个多分区数据帧。都有自己的元数据。它们都是用 fastparquet 制成的。结构看起来像:

我想把这些都加入到一起。

我目前有:

这将返回一个名为“concat”的 dask 数据帧,其中包含 129,294 个任务。

然后我试图把这个写出来:

这最后一个电话永远不会开始工作。即: * 我的笔记本单元正在运行 * dask 系统页面显示越来越多的文件描述符,然后变平 * dask 系统页面显示内存增加,然后仍然增加但速度更慢 * 但任务未出现在任务流中

我已经等了1个小时。

(在 dask 2.3.0 上运行)

0 投票
1 回答
1330 浏览

python - dask 读取具有不同模式的多个镶木地板文件

我想用 dask 将具有不同方案的多个镶木地板文件读取到 pandas 数据帧,并能够合并这些方案。当我谈论不同的方案时,我的意思是,所有这些文件中都有共同的列,但在某些文件中,有些列在其他文件中不存在。

不幸的是,当我阅读文件时

dd.read_parquet(my_parquet_files, engine="fastparquet")

我只阅读了常见的列。我知道在 spark 中有一个 read 选项mergeSchema,我想知道在 dask 中是否有一种简单的方法可以做到这一点?

0 投票
0 回答
381 浏览

parquet - 如何将 kdb 表保存到压缩实木复合地板?

我正在尝试以压缩的apache parquet格式存储/保留 kdb 表。我最初的计划基本上是使用embedPyfastparquetpyarrow.parquet转换为可在 q 中使用。然后,我将使用 kdb+ tick 架构来处理传入的 tick,并每天将 parquet 批量写入磁盘。这是个好主意吗?否则将大量数据保存到磁盘的最佳方法是什么?谢谢

0 投票
1 回答
612 浏览

python - Segmentation Fault while reading parquet file from AWS S3 using read_parquet in Python Pandas

I have a python script running on an AWS EC2 (on AWS Linux), and the scripts pulls a parquet file from S3 into Pandas dataframe. I'm now migrating to new AWS account and setting up a new EC2. This time when executing the same script on python virtual environment I get "Segmentation Fault" and the execution ends.

All packages were imported and all S3 and AWS configurations were set.

when executing the full script I get:

As you can see not much to work with. I've been googling for a few hours and I saw many speculations and reasons for this symptom. I'll appreciate the help here.

0 投票
1 回答
1511 浏览

dataframe - Google bigquery - 错误消息“DataFrame”对象没有属性“to_parquet”,而安装了 pyarrow 和 fastparquet

我正在尝试使用 Google bigquery 函数load_table_from_dataframe,但我收到一条错误消息,指出DataFrameobject has no attribute to_parquet
我都安装了pyarrowfastparquet但仍然收到相同的错误消息

我正在使用 Python 3.6.3 和 pyarrow 版本 0.14.0
关于导致问题的原因有什么想法吗?

0 投票
1 回答
602 浏览

dask - 是否可以从 Dask 读取镶木地板元数据?

我有成千上万的镶木地板文件需要处理。在处理文件之前,我尝试使用 parquet 元数据获取有关文件的各种信息,例如每个分区中的行数、最小值、最大值等。

我尝试使用 dask.delayed 读取元数据,希望在我的集群中分发元数据收集任务,但这似乎会导致 Dask 不稳定。请参阅下面的示例代码片段和节点超时错误。

有没有办法从 Dask 读取镶木地板元数据?我知道 Dask 的“read_parquet”函数有一个“gather_statistics”选项,您可以将其设置为 false 以加快文件读取速度。但是,如果设置为 true,我看不到访问所有 parquet 元数据/统计信息的方法。

示例代码:

示例错误:

0 投票
1 回答
1064 浏览

python - Pandas 和 FastParquet 读取单个分区

我有一个长期运行的工作要读取在美国州具有自然逻辑分区的数据集。我使用 fastparquet(使用 pd.write_parquet)将它保存为 pandas 的分区 parquet 数据集。

我希望我的伙伴能够从创建的 parquet 文件夹中读取单个分区(状态)。read_parquet 没有过滤能力。有什么想法吗?

0 投票
1 回答
785 浏览

python-3.x - Dask - 如何取消并重新提交停滞的任务?

我经常遇到一个问题,即 Dask 在几个任务上随机停止,通常与从我的网络上的不同节点读取数据有关(下面有更多详细信息)。这可能在运行脚本几个小时后没有问题发生。它将以如下所示的形式无限期挂起(否则此循环需要几秒钟才能完成):

在此处输入图像描述

在这种情况下,我看到只有少数停滞的进程,并且都在一个特定的节点(192.168.0.228)上: 在此处输入图像描述

该节点上的每个工作人员都在几个 read_parquet 任务上停滞不前:

在此处输入图像描述

这是使用以下代码调用的,并且使用的是 fastparquet:

我的集群正在运行 Ubuntu 19.04 和 Dask 和 Distributed 的所有最新版本(截至 11/12)以及所需的软件包(例如,tornado、fsspec、fastparquet 等)

.228 节点尝试访问的数据位于我集群中的另一个节点上。.228 节点通过 CIFS 文件共享访问数据。我在运行脚本的同一节点上运行 Dask 调度程序(不同于 .228 节点和数据存储节点)。该脚本使用 Paramiko 通过 SSH 将工作人员连接到调度程序:

.228 节点与调度程序和数据存储节点的连接看起来都很健康。.228 节点可能会在尝试处理 read_parquet 任务时遇到某种短暂的连接问题,但如果发生这种情况,那么 .228 节点与调度程序和 CIFS 共享的连接在该短暂时刻之后不会受到影响。在任何情况下,日志都不会显示任何问题。这是来自 .228 节点的整个日志:

撇开这是否是 Dask 或我的代码/网络中的错误不谈,是否可以为调度程序处理的所有任务设置一般超时?或者,是否可以:

  1. 识别停滞的任务,
  2. 复制一个停滞的任务并将其移动到另一个工人,并且
  3. 取消停滞的任务?
0 投票
0 回答
180 浏览

python - pandas.read_parquet 在 Azure databricks 笔记本中返回“IsADirectoryError”

当我执行 pd.read_parquet("/dbfs/XX/XX/agg.parquet") 以访问 databricks 的 dbfs 中名为 agg 的镶木地板文件时,它返回 'IsADirectoryError'。尽管当我使用 dbutils 列出该文件时,该文件显示为一个文件夹,但我认为 Spark 可以将其作为文件读取,因此它适用于 spark 读取。pandas read_parquet 模块似乎使用了 fastparquet 后端,所以 fastparquet 可能是它引发错误的原因吗?

0 投票
1 回答
1801 浏览

python - Pod 错误 - fastparquet 的构建轮失败

我正在关注链接:https : //kubernetes.dask.org/en/latest/,在 Kubernetes 集群上运行 dask 数组。

脚步:

  1. 在 3 个节点(1 个主节点和 2 个工作节点)上安装了 Kubernetes。
  2. 安装 miniconda3
  3. pip install dask-kubernetes
  4. dask_example.py 带有运行 dask 数组的代码(与链接上给出的示例相同)
  5. 带有 pod 配置的 Worker-spec.yml 文件(与链接上给出的示例相同)

运行示例代码时,worker pod 显示错误状态如下: