问题标签 [tensorflow-data-validation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tfx - Tensorflow 数据验证中可用的“drift_comparator”和“skew_comparator”的实现有什么区别?
需要帮助一些人了解 TFDV 中偏斜和漂移比较器的底层实现之间的区别。
tensorflow - 由于 grpc 超时,tensorflow-data-validation 不适用于具有 apache-beam 直接运行器的大型数据集
我遇到了直接运行器的tensorflow-data-validation问题,以从超过 400GB 的一些大型数据集生成统计信息。似乎所有工作人员在“Keepalive 看门狗被解雇”的错误消息后都停止了工作。关闭交通。” 这似乎是一个grpc keepalive 超时。
tensorflow2.0 - 为什么 tfdv.display_schema() 不支持 SchemaGen?
关于 TFX 的 tensorflow-data-validation,我试图了解何时应该使用 *Gen 组件与使用 TFDV 提供的方法。
具体来说,让我感到困惑的是,我有这个作为我的 ExampleGen:
所以我想,我想从我的火车分割中生成我的统计数据,而不是从原始火车文件中,所以我尝试了:
并且运行良好。但后来,我尝试推断我的模式(插入蜂鸣器声音):
并且故意这会引发下面的错误。我完全期望它不是正确的类型,但我无法弄清楚如何从 StatsGen 对象中提取正确的输出以提供给 infer_schema() 方法。
或者,如果我追求一个完全基于 *Gen 的组件结构,它会构建,但我看不到如何正确可视化架构、统计信息等。最后,我在这里使用 tfdv.infer_schema() 调用的原因如果您尝试将 SchemaGen 传递给同样命运多舛的“display_schema()”调用该错误。
上面的错误:
我真正想了解的是为什么我们有组件,例如 SchemaGen 和 StatisticsGen 只是为了让 TFDV 要求我们使用内部函数才能从中获得价值。我假设它提供交互式管道与非交互式场景,但我的谷歌搜索让我不清楚。
如果有一种方法可以根据我的数据拆分而不是依赖文件阅读器来生成和查看统计信息,我也很想知道这一点。(如果不是很明显,是的,我是 TFX 的新手)。
TIA
python - python pandas多级索引获取特定值
我每小时都有一个分组值的熊猫数据框
例如,我想要每小时每个指标的特定值
这给了我日期,但我也想要说 total_memory 的值,所以我可以进行一些测试,例如 >= 等,但是我不知道如何获得该值?我尝试过引用“mertic”列,但是当我尝试进行查询时,这会返回真/假
非常感谢任何帮助
tensorflow2.0 - TensorFlow Extended:在 Schema 中指定特征的效价
我目前正在尝试通过 TensorFlow Extended (TFX) 管道为数据集提供一些多价特征列。这是我的示例数据中的一行:
如您所见,列(特征)touched_product_id
、、、liked_product_id
是disliked_product_id
多价的。
现在,为了通过 TFX 的验证层提供这些数据,我遵循以下指南:
https://www.tensorflow.org/tfx/tutorials/tfx/components_keras
根据指南,我TFRecord
使用 的实例生成一些文件CSVExampleGen
,然后继续生成统计信息和模式,如下所示:
上述代码显示的最终架构是:
显然,多价特征被错误地推断为单价。为了解决这个问题,我Schema
手动加载了原型并尝试调整valence
属性。
显然,最后一行不起作用,因为令我惊讶的是,没有valence
属性。我尝试查看Schema
原型的规范,但没有找到valence
属性。任何人都知道我该如何解决这个问题?任何指导都会令人难以置信。
tensorflow - 在 TFX 中,是否可以用日期推断 Schema?
我正在使用 TFX(更准确地说是 TensorFlow 数据验证)和那里记录的 infer_schema 方法https://www.tensorflow.org/tfx/data_validation/api_docs/python/tfdv/infer_schema。它从描述列类型的 csv 文件生成模式。
它适用于浮点数、字节数、类别......但我也想检测日期。我没有在教程或指南中找到它。生成的原始消息支持日期,因此这不是问题(请参阅 TimeDomain)。https://github.com/tensorflow/metadata/blob/master/tensorflow_metadata/proto/v0/schema.proto
我尝试使用具有该格式(非美国日期格式)的 CSV 文件,它被识别为字节 :(
代码与教程中的代码相同,因此或多或少:
显示:
我可以让它工作吗?如何?
谢谢!
tensorflow-data-validation - 是否可以在带有 M1 芯片的 MacOS 上运行 tensorflow-data-validation?
问题:是否可以在带有 M1 芯片的 MacOS 上运行 tensorflow-data-validation?
采取的步骤:我创建了一个 conda 环境 ( tfdv38
),在其中安装了Mac 优化的 TensorFlow。
我试图在环境中安装包,这不起作用:
有什么建议么?
tensorflow-data-validation - TFDV generate_stats_from_csv 触发内存不足错误
在小数据集(~10MB)上生成统计数据时遇到问题。
它需要很多时间并消耗大量内存(它达到了我的 25 GB 内存,这没有任何意义)。最后它停止抛出内存不足错误。
tensorflow - 在张量流的`BERT`中使用`keras.Model.fit`时尺寸不匹配
我按照Fine-tuning BERT的说明用我自己的数据集(它有点大,大于 20G)构建了一个模型,然后采取措施重新 cdoe 我的数据并从tf_record
文件中加载它们。我创建的training_dataset
签名与指令中的签名相同
其中batch_size
是 32,max_seq_length
是 1024。正如指令所建议的,
似乎一切都按预期工作,(尽管该指令没有显示如何使用training_dataset
)但是,以下代码
遇到一个对我来说似乎很奇怪的错误,
与 512 无关,我的代码也没有使用 512。那么我的代码哪里出了问题以及如何解决呢?
excel-2007 - Excel 2019 与 Excel 2007:数据验证?
我对 Excel 版本有疑问。
使用 Excel 2019,我创建了一个带有数据验证的文件。col1 必须在这些值中 ( =DATA!A2:A6 )。因此,我选择整个 A 列并选择数据验证,并指定 =DATA!A2:A6 作为源。但是当我转到 col1 的第一行时,第一个值没有出现,当我检查单元格的数据验证时,我发现它已更改为该单元格变为=DATA!A3:A7
此行为在 Excel 2007 上不会发生,并且我的原始文件是使用 Excel 2007 创建的。
有什么帮助吗?
谢谢