问题标签 [petastorm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
904 浏览

python - 通过 Spark 创建 parquet Petastorm 数据集失败并出现溢出错误(大于 4GB)

我正在尝试实现 Uber 的 Petastorm 数据集创建,它利用 Spark 按照其Github 页面上的教程创建镶木地板文件。

编码:

现在 RDD 代码成功执行,但只有.createDataFrame调用失败,并出现以下错误:

_pickle.PicklingError:无法序列化广播:溢出错误:无法序列化大于 4GiB 的字符串

这是我第一次使用 Spark,所以我无法确定这个错误是源自 Spark 还是 Petastorm。

查看此错误的其他解决方案(关于 Spark,而不是 Petastorm),我发现它可能与酸洗协议有关,但我无法确认,我也没有找到改变酸洗协议的方法。

我怎样才能避免这个错误?

0 投票
1 回答
392 浏览

python - 通过 uber/petastorm 将 ndarray 存储到 Parquet 中?

是否可以通过uber/petastorm将 N 维数组存储到 Parquet中?

0 投票
1 回答
604 浏览

python - Python: Reading Parquet files stored on s3 using petastorm generates connection warnings

I have a Tensorflow model that I would like to feed with parquet files stored on s3. I'm using petastorm to query these files from s3 and the result of the query is stored as a Tensorflow dataset thanks to petastorm.tf_utils.make_petastorm_dataset.

Here's the code I used (mainly inspired from this thread Tensorflow Dataset API: input pipeline with parquet files):

This works pretty well, except that it generates 20+ lines of connection warnings:

According to this thread urllib3 connectionpool - Connection pool is full, discarding connection, it's certainly related to urllib3, but I can't figure a way to get rid of these warnings.

Has anyone encountered this issue?

0 投票
0 回答
705 浏览

apache-spark - ValueError:feature_columns 的项目必须是 _FeatureColumn。(张量流 1.13)

我在运行 Tensorflow-1.13 + Horovod-0.16 + Spark-0.24 + Petastorm-0.17 时遇到了 ValueError。这是 model_fn 和一些 indicator_columns 的简单实现,但会引发类似于Items of feature_columns must be a _FeatureColumn 的错误。(张量流 1.8)

错误是

当不通过 h​​orovod.spark.run() 运行代码并使用普通的 tf.Session() 或 hvd.init() 会话时,该代码工作正常。feature_columns 生成为

model_fn 只是一个线性分类器:

并且模型是通过

我知道所有列都正确传递,但从另一个相关问题看来,Spark 如何为 Tensorflow 打包列?

0 投票
0 回答
413 浏览

tensorflow - 通过 Petastorm 将镶木地板文件读入 Keras 时出现 InvalidArgumentError

我正在尝试从镶木地板中读取数据以获取语言模型。

镶木地板包含两列:

  • 目标(整数)
  • 特征向量(整数数组)

我正在修改这篇文章中的代码(这对我有用)。当我尝试下面的代码时,我在尝试运行模型时收到 InvalidArgumentError。

错误:

这个错误令人惊讶,因为它似乎说模型中间层的形状存在问题,它应该正好适合前一层输出的形状。

但是,如果我将数据集转换为迭代器,然后分别运行输出 X 和 Ys,它将按预期运行该批次:

我猜整数数组列被读取并转换为 tf.Dataset 格式的方式存在一些问题,但看不到可能导致这种情况的原因。我认为上述块中的这一行肯定存在一些问题:

我正在运行 databricks 运行时 ML 6.2

  • 张量流 1.15.0
  • 拍风暴 0.8.0
0 投票
0 回答
163 浏览

python - 尝试创建镶木地板 Petastorm 数据集

我目前正在尝试创建一个 parquet petastorm 数据集来存储视频数据集。我的代码是:

当我执行它时,会发生以下错误:

我不知道发生了什么,任何线索都会有所帮助。

谢谢你。

0 投票
1 回答
83 浏览

python - 如何替换 tf.train.batch ,因为它已被弃用

这是使用 Petastorm 训练 mnist 数据的代码。

不知道怎么换tf.train.batch。你能帮忙吗?

0 投票
0 回答
608 浏览

python - 我应该创建一个 PyTorch 数据集来从 pyspark 数据框训练模型吗?

我想在列格式的训练数据上训练一个 PyTorch NLP 模型,我想用pyspark 数据框Dataset作为原始数据来构建一个 PyTorch(不确定它是不是正确的方法......)。

为了预处理文本,我使用了transformers库提供的分词器和tokenizing_UDF应用分词的函数。

然后将该Dataset对象馈送到 aDataLoader以训练 ML 模型。

我目前拥有的是这样的:

我目前调用.toPandas()以便我TokenizedDataset可以处理熊猫数据框。

这是一个明智的做法吗?如果是这样,我应该如何修改TokenizedDataset代码以直接处理 pyspark 数据帧?如果我偏离了轨道,我应该改用https://github.com/uber/petastorm吗?

0 投票
0 回答
42 浏览

python - 使用 petastorm 将时间序列数据(镶木地板格式)转换为序列的最佳方法是什么?

如果在错误的意义上使用这些术语,请原谅我。我仍在努力解决许多火花和分布式相关的事情。

这是我的用例,我无法全面了解实现。

我有以镶木地板格式保存的 40 列和 100 个时间步长的时间序列数据。

我了解到,要对大数据进行分布式训练,我们可以使用 petastorm 进行数据注入,使用 Horovod 进行训练。但我不清楚数据需要如何分区(每个 ID 一个分区?行组是什么?)以及如何将数据转换为 LSTM 期望的序列?

朝这个方向的任何指示都会有很大帮助。谢谢!

0 投票
0 回答
103 浏览

apache-spark - Petastorm:parquet 文件中的非原始数据类型

我遇到了 Petastorm(0.11 版)的问题,它还不支持 parquet 文件中的非原始数据类型。在我的例子中,每个样本都是一个二维数组(一列中浮点值的 32 位表示)。因此,我无法使用 Petastorm 读取 parquet 文件以将其传递给 PyTorch。

有什么建议么?