问题标签 [petastorm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 通过 Spark 创建 parquet Petastorm 数据集失败并出现溢出错误(大于 4GB)
我正在尝试实现 Uber 的 Petastorm 数据集创建,它利用 Spark 按照其Github 页面上的教程创建镶木地板文件。
编码:
现在 RDD 代码成功执行,但只有.createDataFrame
调用失败,并出现以下错误:
_pickle.PicklingError:无法序列化广播:溢出错误:无法序列化大于 4GiB 的字符串
这是我第一次使用 Spark,所以我无法确定这个错误是源自 Spark 还是 Petastorm。
查看此错误的其他解决方案(关于 Spark,而不是 Petastorm),我发现它可能与酸洗协议有关,但我无法确认,我也没有找到改变酸洗协议的方法。
我怎样才能避免这个错误?
python - 通过 uber/petastorm 将 ndarray 存储到 Parquet 中?
是否可以通过uber/petastorm将 N 维数组存储到 Parquet中?
python - Python: Reading Parquet files stored on s3 using petastorm generates connection warnings
I have a Tensorflow model that I would like to feed with parquet files stored on s3. I'm using petastorm
to query these files from s3 and the result of the query is stored as a Tensorflow dataset thanks to petastorm.tf_utils.make_petastorm_dataset
.
Here's the code I used (mainly inspired from this thread Tensorflow Dataset API: input pipeline with parquet files):
This works pretty well, except that it generates 20+ lines of connection warnings:
According to this thread urllib3 connectionpool - Connection pool is full, discarding connection, it's certainly related to urllib3
, but I can't figure a way to get rid of these warnings.
Has anyone encountered this issue?
apache-spark - ValueError:feature_columns 的项目必须是 _FeatureColumn。(张量流 1.13)
我在运行 Tensorflow-1.13 + Horovod-0.16 + Spark-0.24 + Petastorm-0.17 时遇到了 ValueError。这是 model_fn 和一些 indicator_columns 的简单实现,但会引发类似于Items of feature_columns must be a _FeatureColumn 的错误。(张量流 1.8)
错误是
当不通过 horovod.spark.run() 运行代码并使用普通的 tf.Session() 或 hvd.init() 会话时,该代码工作正常。feature_columns 生成为
model_fn 只是一个线性分类器:
并且模型是通过
我知道所有列都正确传递,但从另一个相关问题看来,Spark 如何为 Tensorflow 打包列?
tensorflow - 通过 Petastorm 将镶木地板文件读入 Keras 时出现 InvalidArgumentError
我正在尝试从镶木地板中读取数据以获取语言模型。
镶木地板包含两列:
- 目标(整数)
- 特征向量(整数数组)
我正在修改这篇文章中的代码(这对我有用)。当我尝试下面的代码时,我在尝试运行模型时收到 InvalidArgumentError。
错误:
这个错误令人惊讶,因为它似乎说模型中间层的形状存在问题,它应该正好适合前一层输出的形状。
但是,如果我将数据集转换为迭代器,然后分别运行输出 X 和 Ys,它将按预期运行该批次:
我猜整数数组列被读取并转换为 tf.Dataset 格式的方式存在一些问题,但看不到可能导致这种情况的原因。我认为上述块中的这一行肯定存在一些问题:
我正在运行 databricks 运行时 ML 6.2
- 张量流 1.15.0
- 拍风暴 0.8.0
python - 尝试创建镶木地板 Petastorm 数据集
我目前正在尝试创建一个 parquet petastorm 数据集来存储视频数据集。我的代码是:
当我执行它时,会发生以下错误:
我不知道发生了什么,任何线索都会有所帮助。
谢谢你。
python - 如何替换 tf.train.batch ,因为它已被弃用
这是使用 Petastorm 训练 mnist 数据的代码。
不知道怎么换tf.train.batch
。你能帮忙吗?
python - 我应该创建一个 PyTorch 数据集来从 pyspark 数据框训练模型吗?
我想在列格式的训练数据上训练一个 PyTorch NLP 模型,我想用pyspark 数据框Dataset
作为原始数据来构建一个 PyTorch(不确定它是不是正确的方法......)。
为了预处理文本,我使用了transformers
库提供的分词器和tokenizing_UDF
应用分词的函数。
然后将该Dataset
对象馈送到 aDataLoader
以训练 ML 模型。
我目前拥有的是这样的:
我目前调用.toPandas()
以便我TokenizedDataset
可以处理熊猫数据框。
这是一个明智的做法吗?如果是这样,我应该如何修改TokenizedDataset
代码以直接处理 pyspark 数据帧?如果我偏离了轨道,我应该改用https://github.com/uber/petastorm吗?
python - 使用 petastorm 将时间序列数据(镶木地板格式)转换为序列的最佳方法是什么?
如果在错误的意义上使用这些术语,请原谅我。我仍在努力解决许多火花和分布式相关的事情。
这是我的用例,我无法全面了解实现。
我有以镶木地板格式保存的 40 列和 100 个时间步长的时间序列数据。
我了解到,要对大数据进行分布式训练,我们可以使用 petastorm 进行数据注入,使用 Horovod 进行训练。但我不清楚数据需要如何分区(每个 ID 一个分区?行组是什么?)以及如何将数据转换为 LSTM 期望的序列?
朝这个方向的任何指示都会有很大帮助。谢谢!
apache-spark - Petastorm:parquet 文件中的非原始数据类型
我遇到了 Petastorm(0.11 版)的问题,它还不支持 parquet 文件中的非原始数据类型。在我的例子中,每个样本都是一个二维数组(一列中浮点值的 32 位表示)。因此,我无法使用 Petastorm 读取 parquet 文件以将其传递给 PyTorch。
有什么建议么?