问题标签 [tfx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
174 浏览

kubeflow - 在本地使用 Kubeflow 编排 TFX 管道

嘿,我正在开发一个包,它会生成用于训练 GPT-2 的 TFX 管道(请参阅https://github.com/steven-mi/tfx-gpt2)。

我想知道如何将我的管道部署到本地的 Kubeflow。有没有这样做的深入指南?

0 投票
1 回答
174 浏览

tensorflow - 如何为 TFX Serving 创建 model_config 文件?

我有一堆从 tf.keras.layers.Layer我保存的继承而来的自定义模型实例。我想用 TFX Serving 为他们提供服务,这需要我有一个model_config文件。

我想知道如何根据这本书创建这个。现在我有以下代码,我认为这更多是关于我自己的拼凑而不是我应该做的......

0 投票
0 回答
94 浏览

python - 如何在本地 python 项目中使用 Tensorflow

我有一个在 Tensorflow 中创建的模型,该模型已经过训练且准确。如何让它在项目中运行?我可以加载模型,但我不知道如何为它提供我的软件生成的单个图像。

另外,如果这是一个迁移学习项目,我是否必须在加载权重之前加载并创建一个模型?

所有教程都是关于如何在云中或使用我想避免的本地服务器进行设置。我很想保存数据然后运行它,但这要慢得多。

另外: 我正在构建的环境是一个 google colab Jupyter notebook。这个想法是不为用户安装,这就是为什么它必须是自包含的。

0 投票
0 回答
80 浏览

tensorflow - TFX 抱怨上游组件未在交互模式下运行

请在此处找到笔记本 https://colab.research.google.com/drive/1Qb-uv5JtyZhMl1BEVHplZmfULgV-BN45?usp=sharing

上游组件(此案例中的转换示例已使用 context.run() 成功执行,但是培训师仍然抱怨它没有完成

笔记本在 TFX 0.22 上训练良好,但在 TFX 0.23 中出现此错误

0 投票
1 回答
180 浏览

tensorflow2.0 - 为什么 tfdv.display_schema() 不支持 SchemaGen?

关于 TFX 的 tensorflow-data-validation,我试图了解何时应该使用 *Gen 组件与使用 TFDV 提供的方法。

具体来说,让我感到困惑的是,我有这个作为我的 ExampleGen:

所以我想,我想从我的火车分割中生成我的统计数据,而不是从原始火车文件中,所以我尝试了:

并且运行良好。但后来,我尝试推断我的模式(插入蜂鸣器声音):

并且故意这会引发下面的错误。我完全期望它不是正确的类型,但我无法弄清楚如何从 StatsGen 对象中提取正确的输出以提供给 infer_schema() 方法

或者,如果我追求一个完全基于 *Gen 的组件结构,它会构建,但我看不到如何正确可视化架构、统计信息等。最后,我在这里使用 tfdv.infer_schema() 调用的原因如果您尝试将 SchemaGen 传递给同样命运多舛的“display_schema()”调用该错误。

上面的错误:

我真正想了解的是为什么我们有组件,例如 SchemaGen 和 StatisticsGen 只是为了让 TFDV 要求我们使用内部函数才能从中获得价值。我假设它提供交互式管道与非交互式场景,但我的谷歌搜索让我不清楚。

如果有一种方法可以根据我的数据拆分而不是依赖文件阅读器来生成和查看统计信息,我也很想知道这一点。(如果不是很明显,是的,我是 TFX 的新手)。

TIA

0 投票
1 回答
118 浏览

tensorflow2.0 - 如何调用 ExampleValidator 来分析拆分数据集?

使用:

具有这样的交互式上下文:

我使用以下方法创建了一个 ExampleGen:

后来在代码中,我尝试使用 ExampleValidator 评估数据,但似乎 ExampleValidator 没有解析到拆分数据集的正确路径。

验证器的创建按预期工作:

没有警告或错误,但试图显示结果,路径上的错误不正确:

NotFoundError:/home/jovyan/pipeline/ExampleValidator/anomalies/16/anomalies.pbtxt;没有这样的文件或目录

实际的目录结构是这样的:

但代码似乎期望:

如何调用 ExampleValidator 来分析拆分数据集?

0 投票
1 回答
402 浏览

tensorflow - 如何为 TFMA/Beam 提供自定义指标?

我创建了一个自定义 Keras 指标,类似于下面的演示实现:

我已将实现转换为带有 init/main 文件的 Python 模块,并将路径添加到系统的PYTHONPATH. 我可以在训练 Keras 模型时使用该指标。

不幸的是,我还没有找到一种方法使自定义指标可用于 TensorFlow 模型分析 (TFMA)。

在我的交互式上下文笔记本中,我可以在创建eval_config.

当我尝试执行时evaluator,该指标在指标规范中列出

但执行失败并出现错误

由于度量计算是通过 Apache Beam 的executor.Do函数执行的,我假设 Beam 找不到模块(即使它在 PYTHONPATH 上)。如果是这种情况,如何使模块在 PYTHONPATH 配置之外对 Apache Beam 可用?

追溯:

0 投票
1 回答
223 浏览

python - TFX。CsvExampleGen 中 CsvCoder 的属性:“列与指定的 csv 标题不匹配”

我正在使用 TensorFlow Extended 并堆栈在加载的 .csv 文件中。此文件有;分隔,默认无法读取 TFX 生成器CsvExampleGen()。它抛出以下错误:ValueError: Columns do not match specified csv headers

我发现这个问题与内部依赖关系有关,例如tft.coders.CsvCoder()不需要默认参数来解析 .csv 文件。

问题如下:

  • 如何从中抛出tft.coders.CsvCoder()参数tfx.components.CsvExampleGen
0 投票
1 回答
554 浏览

python - TFX 组件 CsvExampleGen 总是产生带有空输出(和输入)的示例

我可以在没有错误消息的情况下运行 CsvExampleGen,但生成的示例的输出(和输入)始终为空。

我正在使用 tfx==0.24.0。

要使用 CsvExampleGen 读取 CSV 文件,请根据文档和教程(包括https://www.tensorflow.org/tfx/guide/examplegen)+ tfx 0.23.0/0.24.0 的发行说明(https:// /github.com/tensorflow/tfx/releases),以下代码行应该足以读取 CVS 文件:

其中“data_path”标识了一个包含 CVS 文件的目录。(请注意,该代码与官方文档的不同之处在于不使用“external_input”;而是遵循 0.23.0 发行说明中记录的新接口。)

从教程中我收集到一个简单的 CVS 文件应该足以进行测试(尽管我尝试了最多 7 个文件)。

我没有收到任何错误消息(如果我没有可用的 GPU,我被告知忽略的错误消息除外);但是,结果结构的输出(和输入)是空的(分别为空列表和空集/字典)。但是,我认为它们不应该是空的。

有问题的 CSV 文件已找到并被触及,因为如果我在那里引入错误(例如一行中的附加列),我会收到一条错误消息。

我使用独立函数以及管道内部(为简单起见,使用 BeamDagRunner 运行)进行了尝试。该管道确实生成了一个 metadata.db,但我在那里找不到任何 CSV 数据的痕迹(如列名)。将 StatisticsGen 添加到管道并没有进一步帮助。

我用 iris 数据集尝试了这个,有和没有列标题。我还尝试在 data_path 中使用多达 7 个小的人工 CVS 文件,或者使用纯数字和混合数字/类别数据,或者使用逗号和分号作为分隔符。结果总是一样的。

我的代码有问题,或者某些配置或库有问题吗?

这是完整的代码(尽可能相关):

也可能有用:记录器信息:

0 投票
1 回答
107 浏览

tensorflow - 使用 .tfrecord 文件进行预测的最佳实践

在 TFRecord 文件中存储/读取数据以训练预测模型的最佳实践是什么?我想建立一个模型,可以根据其历史健康数据(例如,来自一组电机的历史数据,包括每个电机的速度、错误率、故障、 ETC)。

我可以使用 Apache Beam/Dataflow 进行整个预处理(标准化数据、估算缺失值、设计新功能、拆分以训练/验证/测试集等)。但我在想也许最好将原始数据存储为 .tfrecord 文件并使用 TFX 进行标准化、插补等,以使实验更容易。TFX tensorflow_transform 当前不支持 tf.SequenceExample 文件。因此,我正在考虑将原始数据存储为 tf.Example 文件,每条记录采用以下格式:

你怎么看?有小费吗?