2

如何表示 H2O 的输入数据(数据框)中的项目集/列表?

我正在使用带有 H2O Flow 的苏打水 1.6.5。我的输入数据(CSV 文件中的列)如下所示:

age: numeric
gender: enum
hobbies: ?
sports: ?

爱好和运动是列表/集合,可能条目数量有限(每个约 20 个)。H2O 似乎没有合适的数据类型。如何将这些导出到 H2O Flow 可以处理的 CSV 文件中?

4

1 回答 1

3

如果您只是记录他们的主要爱好或主要运动,那么它将是一个单一的枚举列,例如爱好,有 20 个级别。您只需将其写为 csv 文件中的字符串字段,H2O 就会读取它。

但我认为你所追求的是每个人从 20 个爱好中有 0+ 个选择?在这种情况下,您的 csv 文件中需要有 20 列,每个爱好一列;每个都是 2 值枚举。这两个值是什么无关紧要:Y/N、T/F、Y/blank、h​​obby-name/blank 等。您的 csv 文件可能如下所示:

name,gender,football?,running?,data mining?,sleeping?
Tom,M,Y,,,Y
Dick,M,,,Y,
Suzy,F,,Y,Y,

Tom 喜欢足球和睡觉,Dick 只为数据挖掘而生,Suzy 喜欢跑步和数据挖掘。

顺便说一句,如果使用deeplearningthen 它将以相同的网络配置结束:单个 20 级枚举输入将转换为 20 个二进制输入节点。

于 2016-06-26T20:33:53.080 回答