curl - 如何管道 wget/curl 输出以检查它是否包含特定单词？

Question

我正在尝试从网站下载大量连续文件，但我只需要那些包含特定单词的文件。我现在在做什么：我正在下载这样的所有文件：

wget http://host/file/{0..100000}.html

我需要检查输出，如果它包含“短语”，请将其下载到我的硬盘上。请指出正确的方向。

score 2 · Accepted Answer

您无法在不下载文件/网页的情况下检查它的内容——即使它只是临时下载。一个简单的解决方法是使用一个脚本来下载文件，检查任何关键字，如果存在，则保留文件，否则将其丢弃。像这样的东西：

for i in `seq 100000`; 
do 
   wget http://host/file/$i.html
   grep KEYWORD $i.html
   if [[ $? -eq 0 ]] 
   then
       echo "File $i.html was kept" 
   else
       echo "File $i.html will be deleted"
       rm -f $i.html
   fi
done;

**作为免责声明：我没有测试上面的脚本，但它应该是一个足够好的例子。

curl - 如何管道 wget/curl 输出以检查它是否包含特定单词？

1 回答 1

Related

Reference