h2o - DAI 是否在训练期间进行标准化/规范化，它尝试了哪些方法，以及遗传算法是否都尝试了它们？

Question

通常我不确定在使用 DAI 时对数据进行何种程度的预处理。通常，您希望为生产级模型降低维度、消除重复特征、标准化/规范化等。是否有一条规则，我应该停止个人预处理以支持 DAI（IE 只去除 Nan 的二进制分类算法，其余的由 DAI 完成）。它会明确解释它使用了哪种标准化技术，例如来自 Sklearn 的 MinMaxScaler() 吗？

score 1 · Accepted Answer

通常，不需要预处理，DAI 用于内部预处理的方法取决于模型背后的算法。

但是，有些特定的用例可能需要预处理，如果您联系他们，h2o 可以帮助您。例如，如果您想在客户级别预测某事，但您的数据是交易，那么您需要进行预处理 - 假设您有杂货店交易，并且您想预测商店明天会赚多少钱。然后您需要汇总到日间商店级别，因为这是您想要预测的级别。基本上任何情况下，数据比您希望在需要预处理时预测的级别更精细。

对于缺失值，最好让 Driverless AI 处理它们，除非您知道缺失值的原因，因此可以使用域规则来填充它们。例如，如果您有 transaction = NA 但您知道这意味着没有花钱，您d 想将 NA 更改为 0。

我认为以下文档可能会有所帮助：http: //docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions。特别是“无人驾驶 AI 可以处理缺失值/空值的数据吗？”部分和“无人驾驶人工智能是否标准化数据？”。

您还可以在实验报告中找到很多关于您的实验正在做什么的信息：http: //docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html。我们目前不报告标准化方法，因为对于可能非常复杂的集成中的每个模型，它的发生方式不同。

h2o - DAI 是否在训练期间进行标准化/规范化，它尝试了哪些方法，以及遗传算法是否都尝试了它们？

1 回答 1

Related

Reference