azure - 流分析作业参考数据加入创建重复项

Question

我正在使用流分析来加入流数据（通过 IoT 中心）和参考数据（通过 blob 存储）。参考数据 blob 文件每分钟使用最新数据生成，格式为“filename-{date} {time}.csv”。参考 Blob 文件数据在 Azure 机器学习函数中用作 SA 作业中的参数。流分析作业的输出（到 Azure SQL 或 Power BI）似乎生成了多行，而不是为 Azure 机器学习函数的输出生成一行，每一行用于来自先前 blob 文件的参数值。我的理解是它应该只使用最新的 blob 文件内容，但看起来它正在使用所有 blob 文件并从 AML 输出生成多行。这是我正在使用的查询：

SELECT AMLFunction(Ref.Input1, Ref.Input2), * FROM IoTInput Stream LEFT JOIN RefBlobInput Ref ON Stream.DeviceId = Ref.[DeviceID]

请您建议是否需要更改查询或文件路径以避免重复记录？谢谢

score 0 · Accepted Answer

要仅使最新文件生效，您需要将文件存储在特定的文件夹结构中。

如果您有记录，每当您选择参考数据文件作为流输入时；流输入对话框要求您提供文件夹结构以及日期和时间格式。

流始终从最新的 {date}/{time} 文件夹中搜索参考文件。即你需要像这样存储你的文件，

2018-01-25/07:30/filename.json (YYYY-MM-DD/HH-mm/filename.json)

注意：这里您的时间文件夹需要每分钟都是唯一的。同样，日期文件夹对于每个日期都必须是唯一的。每当您创建新文件时，请在新的时间戳文件夹和当前日期文件夹下创建它。

您可以使用流输入支持的任何日期时间格式。

azure - 流分析作业参考数据加入创建重复项

1 回答 1

Related

Reference