0

我正在尝试将大量图像从网站下载到我的 Mac 上。我可以使用 DownloadThemAll、SiteSucker 等下载较小的图像,但它们的挖掘不够深入。所以我不得不跳进终端,这有点超出我的舒适区,我的技能有点生疏。

我试过下面的脚本:

curl -O http://www.domain.co.uk/system/images/[1-1000]/original/*.jpg

该脚本有效,我可以看到终端正在下载图像文件,但是我遇到的问题是文件被 *.jpg 覆盖并且没有按顺序生成它们,例如 1.jpg、2.jpg、3.jpg 等甚至是他们原来的名字。原始 jpg 名称使用随机数字/字母(例如 LIC0145_websource.jpg),这就是我尝试用 *.jpg 对其进行补充的原因。我想知道我缺少哪段代码来告诉终端下载这些图像。

我也厌倦了调用下面的 shell 脚本,但遇到了“意外的文件结尾”

#!/bin/bash
for i in `seq 1 1000`;
do
input=http://www.domain.co.uk/system/images/$i/original/*.jpg
output=$i.jpg
#   echo $input, $output
curl --output $output --remote-name $input
done

我认为 curl 选项可能仍然是一个更好的选择,但如果有人有任何修复或其他解决方案,请告诉我。

4

1 回答 1

-1

你可以做这样的事情wget(我知道那不是curl):

wget --no-parent --accept=jpg,jpeg,htm,html --mirror  http://somedomain/ 

然后CD到目录并发出

find ./ \( -iname '*.htm' -o -iname '*.html' \) -exec rm {} \;
于 2012-10-18T13:58:25.183 回答