0

我想做的是在Linux上制作一个bash脚本,脚本的目标是获取一个url列表并下载它们。所以我写了一个脚本和它的作品,但我的问题是所有的 url 都来自同一个网站,所以我在每个 url 之后睡了 5 分钟,这需要很多时间所以只想使用代理列表所以我制作了一个将代理 ip 下载到代理列表的脚本,但现在我想了解在这种情况下工作的最佳方式是什么,我想创建多个线程并使用代理列表下载,但如果可以的话跳过代理'不要用它下载(我在下载它们时已经检查了代理列表)并且如果它已经下载它则跳过该文件。

非常感谢您的帮助和建议。。

4

1 回答 1

0

这可以在我的 Mac 上工作,将它们放在一个列表中,我们将其命名为 list.txt,它将具有名称和 url mydoc.pdf http://www.domesite/xyz/xyzdoc.pdf

cat list.txt | while read name url
do
curl $url > $name &
echo $! >> active.list.tmp
done


while [ $(ps -ao pid | grep -c -f  active.list.tmp) -ne 0 ]
do
sleep 1
done

echo done
rm active.list.tmp
于 2013-08-15T07:20:03.123 回答