1

我一直在尝试让 stylegan 在 gcp 上运行以连接到 v100。我已经能够使用此实例设置进行 1d 培训

 export IMAGE_FAMILY="pytorch-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west2-b" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

对于大型数据集,然后我为另一个数据集运行相同的代码,它似乎没有使用 v100。我必须运行 !pip install tensorflow-gpu 两次

当我尝试使用代码时

export IMAGE_FAMILY="tf-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west1-a" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

运行 data_tool.py 文件以创建记录时出现错误,并且由于某种原因在 jupyter 实验室环境中无法运行 python3。

此外,所有代码都在 google colab 上运行,这让我们想知道 colab 有什么类型的实例,我是否可以找到脚本来使用 v100 设置相同的实例?

4

1 回答 1

1

你的第一个命令:

export IMAGE_FAMILY="pytorch-latest-gpu" # or "pytorch-latest-cpu" for non-GPU instances
export ZONE="us-west2-b" # budget: "us-west1-b"
export INSTANCE_NAME="my-fastai-instance"
export INSTANCE_TYPE="n1-highmem-8" # budget: "n1-highmem-4"

# budget: 'type=nvidia-tesla-k80,count=1'
gcloud compute instances create $INSTANCE_NAME \
        --zone=$ZONE \
        --image-family=$IMAGE_FAMILY \
        --image-project=deeplearning-platform-release \
        --maintenance-policy=TERMINATE \
        --accelerator="type=nvidia-tesla-v100,count=1" \
        --machine-type=$INSTANCE_TYPE \
        --boot-disk-size=200GB \
        --metadata="install-nvidia-driver=True"

使用图像系列pytorch-latest-gpu此图像未预安装 TensorFlow,不应与 TensorFlow 任务一起使用。

至于第二个命令,它使用tf-latest-gpu的是正确的家庭。我可以要求提供更多详细信息以供我们帮助:

  • 您尝试运行的代码是什么?
  • 你能在这里复制粘贴错误吗?
  • 如果它在 Colab 上运行,也许您有指向公共 Colab 笔记本的链接?

顺便说一句,Colab 正在使用 1 个 K80 GPU。

于 2019-04-01T17:25:27.733 回答