1

我在 Keras 中使用 Weights&Biases 基于云的扫描。因此,首先我在 W&B 项目中创建一个新的 Sweep,其配置如下:

description: LSTM Model
method: random
metric:
  goal: maximize
  name: val_accuracy
name: LSTM-Sweep
parameters:
  batch_size:
    distribution: int_uniform
    max: 128
    min: 32
  epochs:
    distribution: constant
    value: 200
  node_size1:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size2:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size3:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size4:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size5:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  num_layers:
    distribution: categorical
    values:
    - 1
    - 2
    - 3
  optimizer:
    distribution: categorical
    values:
    - Adam
    - Adamax
    - Adagrad
  path:
    distribution: constant
    value: "./path/to/data/"
program: sweep.py
project: SLR

我的sweep.py文件看起来像这样:

# imports
init = wandb.init(project="my-project", reinit=True)
config = wandb.config

def main():
    skfold = StratifiedKFold(n_splits=5, 
    shuffle=True, random_state=7)
    cvscores = []
    group_id = wandb.util.generate_id()
    X,y = # load data
    i = 0
    for train, test in skfold.split(X,y):
        i=i+1
        run = wandb.init(group=group_id, reinit=True, name=group_id+"#"+str(i))
        model = # build model
        model.fit([...], WandBCallback())
        cvscores.append([...])
        wandb.join()

if __name__ == "__main__":
    main()

从.wandb agent文件夹中的命令开始sweep.py

我对这个设置的体验是,第一个 wandb.init() 调用会初始化一个新的运行。好的,我可以删除它。但是当第二次调用 wandb.init() 时,它似乎忘记了它正在运行的扫描。在线扫描中列出了一个空运行(因为第一次 wandb.init() 调用),所有其他运行列在项目中,但不在扫描中。

我的目标是对 k 折交叉验证的每一折进行一次运行。至少我认为这将是这样做的正确方法。是否有不同的方法将扫描与 keras k-fold 交叉验证相结合?

4

1 回答 1

5

我们整理了一个如何完成 k 折交叉验证的示例:

https://github.com/wandb/examples/tree/master/examples/wandb-sweeps/sweeps-cross-validation

该解决方案需要对 wandb 库进行一些扭曲,以代表启动的扫描作业生成多个作业。

基本思想是:

  • 代理从云托管参数服务器请求一组新参数。这是sweep_run在主函数中调用的运行。
  • 将有关折叠应通过多处理队列处理的信息发送到等待进程
  • 每个生成的进程都记录到自己的运行中,使用 group 和 job_type 进行组织,以在 UI 中启用自动分组
  • 该过程完成后,它将主要指标通过队列发送到父扫描运行
  • 扫描运行从子运行读取指标并将其记录到扫描运行,以便扫描可以使用该结果来影响未来的参数选择和/或超带提前终止优化

可以在此处看到扫描和 k 折叠分组的示例可视化:

于 2020-08-21T17:48:33.043 回答