当使用 Google Prediction API (v1.6) 进行分类时,我在使用“插入”训练模型与“更新”时会得到不同的行为。
如果我将 csv 文件上传到存储并使用它进行训练(插入)或使用插入方法并将训练数据包含在请求中,结果是相同的。(即我使用哪种插入方法无关紧要)。
但是,通过插入创建一个空模型,然后通过更新添加所有数据会产生不同的结果。
预测概率的值非常不同,通过插入创建的模型似乎不受初始训练后更新的影响。
使用插入,“Addr12”的预测概率为:
预测:Addr12概率
:0.071895 标签:登录名称
概率:0.039216 标签:状态概率
:0.000000 标签:登录类型
概率:0.013072 标签:SSN
概率:0.052288 标签:员工编号
概率:0.032680 标签:名字
概率:0.071895 标签:中间名
概率:0.052288 标签:姓氏
概率:0.071895 标签:出生日期
概率:0.098039 标签:性别
概率:0.006536 标签:资格等级
概率:0.019608 标签:位置
概率:0.104575标签:地址 1
概率:0.111111 标签:地址 2
概率:0.026144 标签:城市
概率:0.058824 标签:邮编
概率:0.091503 标签:雇用日期
概率:0.078431 标签:每周工作小时数
使用更新,“Addr12”的预测概率为:
预测:Addr12概率
:0.000000 标签:每周工作时间概率
:0.000000 标签:雇用日期
概率:0.000000 标签:邮编
概率:0.000000 标签:状态
概率:0.000000 标签:城市
概率:0.527513 标签:地址 2
概率:0.472487 标签:地址 1 概率
:0.000000 标签:位置
概率:0.000000 标签:资格等级
概率:0.000000 标签:性别
概率:0.000000 标签:出生日期
概率:0.000000 标签:姓氏
概率:0.000000 标签:中间名
概率:0.000000 标签:名字概率
:0.000000 标签:员工编号
概率:0.000000 标签:SSN
概率:0.000000 标签:登录类型
概率:0.000000 标签:登录名
最后,Analyze after using insert 的输出包含 dataDescription/outputFeature/text 加上 modelDescription 和confusionMatrix。使用更新后分析的输出不包含模型描述和混淆矩阵(不,我不简单,不包括输出中的那些字段)。
有人成功地使用插入来训练初始模型,同时能够使用更新来改进它吗?
----- 埃德