1

通常我不确定在使用 DAI 时对数据进行何种程度的预处理。通常,您希望为生产级模型降低维度、消除重复特征、标准化/规范化等。是否有一条规则,我应该停止个人预处理以支持 DAI(IE 只去除 Nan 的二进制分类算法,其余的由 DAI 完成)。它会明确解释它使用了哪种标准化技术,例如来自 Sklearn 的 MinMaxScaler() 吗?

4

1 回答 1

1

通常,不需要预处理,DAI 用于内部预处理的方法取决于模型背后的算法。

但是,有些特定的用例可能需要预处理,如果您联系他们,h2o 可以帮助您。例如,如果您想在客户级别预测某事,但您的数据是交易,那么您需要进行预处理 - 假设您有杂货店交易,并且您想预测商店明天会赚多少钱。然后您需要汇总到日间商店级别,因为这是您想要预测的级别。基本上任何情况下,数据比您希望在需要预处理时预测的级别更精细。

对于缺失值,最好让 Driverless AI 处理它们,除非您知道缺失值的原因,因此可以使用域规则来填充它们。例如,如果您有 transaction = NA 但您知道这意味着没有花钱,您d 想将 NA 更改为 0。

我认为以下文档可能会有所帮助:http: //docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions。特别是“无人驾驶 AI 可以处理缺失值/空值的数据吗?”部分 和“无人驾驶人工智能是否标准化数据?”。

您还可以在实验报告中找到很多关于您的实验正在做什么的信息:http: //docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html。我们目前不报告标准化方法,因为对于可能非常复杂的集成中的每个模型,它的发生方式不同。

于 2019-05-02T19:58:07.047 回答