问题标签 [tfx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tfx - 气流:如何使用 tfx 的 AirflowDagRunner 在运行时为 tfx 管道创建分布式气流中的虚拟 python 环境?
我有 DAGS,我想在同一个分布式气流集群的不同 python 环境中运行。是否可以在执行 DAG 时创建虚拟 python 环境?
我希望将 tfx ML 管道添加到我们的分布式气流平台,并且无法在每个工作节点中单独安装 tfx。
编辑:我希望使用基于 python 运算符的固有 tfx AirflowDagRunner。我宁愿不更改任何 tfx 代码来处理此案。
tensorflow2.0 - 如何将 StatisticsGen 与 RaggedTensor 一起使用?
我在使用 TFX 的 StatisticsGen 组件时遇到问题。我使用 TFRecords 并使用 RaggedTensors 作为输入数据(TFrecord 是使用 SequenceExample 创建的) 在使用将文件正确拆分为 train 和 val 的 ExampleGen 后,StatisticsGen 创建了一个 0kb 文件,因此无法正常工作。
谁能向我确认 TFX 支持 RaggedTensors 吗?如果是这样,你能帮我生成统计数据吗?
TF 版本:2.4.1 Eager 模式:True TFX 版本:0.28.0 TFDV 版本:0.28.0 TFT 版本:0.28.0 TFMA 版本:0.28.0 Hub 版本:0.9.0 Beam 版本:2.28.0
kubeflow - 是否可以将 kubeflow 组件与 tensorflow 扩展组件混合使用?
看起来 Kubeflow 已经弃用了所有的 TFX 组件。我目前有一些自定义 Kubeflow 组件可以帮助启动我的一些数据管道,我希望我可以在同一个 kubeflow 管道中使用一些 TFX 组件。是否有推荐的方法将 Kubeflow 和 Tfx 组件混合在一起?
我看到一个来自 Kubeflow 的旧 PR 弃用了他们的 TFX 组件: https ://github.com/kubeflow/pipelines/issues/3853
它指出:
创建这些组件是为了允许用户在其 KFP 管道中使用 TFX 组件,以便能够混合 KFP 和 TFX 组件。如果您的管道仅使用 TFX 组件,请使用官方 TFX SDK。
但我实际上确实需要混合 KFP 和 TFX 组件,有没有办法做到这一点?
python - TensorFlow Extended data_accessor.tf_dataset_factory() 形状差异
在尝试将 vanilla tensorflow/keras 工作流转换为 tensorflow 扩展管道时,我遇到了一个令人困惑的问题。
简而言之:使用 tfx 的ExampleGen组件生成的数据集与使用相同数据手动创建的数据集具有不同的形状tf.data.Dataset.from_tensor_slices()
,并且不能输入到 keras 模型中。
可重现的例子
1. 数据生成
假设我们使用以下命令创建示例数据集:
2. 模型生成
为简单起见,让我们使用一个虚拟密集模型。
3. 工作原理:手动数据集创建
然后可以将此 parquet 文件加载回 pandas df 并使用以下方法转换为 tensorflow 数据集:
这给出了一个带有 的数据集cardinality() = <tf.Tensor: shape=(), dtype=int64, numpy=25>
,可以将其提供给上面的玩具模型。
4. 什么不行:做一个tensorflow扩展流水线
我试图通过应用稍微修改的 tfx启动管道来复制这些结果:
但是,ExampleGen 生成的数据集具有基数tf.Tensor(-2, shape=(), dtype=int64)
,并在馈送到同一模型时给出以下错误消息:
重要的是:即使将数据存储为csv
文件并使用 读取,问题仍然存在CsvExampleGen
,这使得问题不太可能由数据本身引起。
此外,批处理 tfx 输出数据集对结果没有影响。
我已经尝试了我能想到的一切,但没有任何好处。tfx 引擎盖下发生的事情的相对模糊性也无助于调试。有没有人知道问题是什么?
编辑 1
写完这个问题后,我注意到了两点:
data_accessor.tf_dataset_factory()
实际上并不输出 atensorflow.python.data.ops.dataset_ops.TensorSliceDataset
,而是输出 atensorflow.python.data.ops.dataset_ops.PrefetchDataset
。实际上,有一小部分尚未回答的问题看起来与我讨论使用
PrefetchDataset
s 的痛苦的问题有些相关:
考虑到这些问题都没有找到答案,而且问题的症结似乎是缺乏关于PrefetchDataset
s 以及如何使用它们的文档,我将在 tfx 的董事会上打开一个问题,看看如果没有的话会如何进行。几天内不会在这里得到答复。
编辑 2:版本和环境详细信息
根据TensorFlow Support的要求,以下是有关我所有与 TensorFlow 相关的安装版本的详细信息:
核心组件:
- 张量流==2.3.0
- tfx==0.25.0
- tfx-bsl==0.25.0
TensorFlow相关的东西:
- 张量流云==0.1.7
- 张量流数据验证==0.25.0
- 张量流数据集==3.0.0
- 张量流估计器==2.3.0
- tensorflow-hub==0.9.0
- 张量流-io==0.15.0
- 张量流元数据==0.25.0
- 张量流模型分析==0.25.0
- 张量流概率==0.11.0
- tensorflow-serving-api==2.3.0
- 张量流变换==0.25.0
环境和其他杂项细节:
- Python版本:3.7.9
- 操作系统:Debian GNU/Linux 10(破坏者)
- 从 N1 GCP 实例运行
deep-learning - 使用 MSCOCO 数据集进行图像字幕的 TFX
我能够将图像转换为 tfrecords,但不知道如何将它与字幕结合起来。实际上,我想用图像和标题的配对数据生成 tfrecords。我试图为此创建 2d tfrecords 但不起作用。在这里,我正在尝试使用 TFX 为图像字幕创建 MLOPS 管道。如果有人对创建 MLOPS 管道有任何其他想法,请发表评论。
python - 在 Tensorflow 中循环一个张量
我想循环一个 Tensorflow 张量,我的代码是这样的:
如何在图形模式下的 Tensorflow 中做到这一点?我收到以下错误:
我正在使用 TF 2.4.1 运行它,但我是在 Beam 上下文(出于 TFX 目的)下进行的,这意味着操作是在图形操作下完成的。
谢谢!
python - 动态while循环Tensorflow
我有这个numpy
功能,我把它简化成这样的:
我想将其转换为 AutoGraph 可以支持的等效 TF 函数。我正在使用 TF 2.4.1,但我需要在图形计算下运行它,因为我需要在 Beam 上下文下运行它。
这是我的尝试:
然后在 Beam 上下文中调用它:
我收到以下错误:
有人可以帮忙吗?谢谢!