1

我在一个文本文件中列出了 50 个奇怪的 URL(每行一个 URL)。现在,对于每个 URL,我想提取网站的文本并将其保存下来。这听起来像是 Linux 中 shell 脚本的工作。

目前我正在把事情放在一起:

  1. 比如说sed -n 1p listofurls.txt我可以读取我的 URL 文件中的第一行,listofurls.txt
  2. 我可以使用lynx -dump www.firsturl...输出通过各种命令进行管道整理和清理。完成,这行得通。

在自动化之前,我正在努力将 URL 输入到 lynx 中:比如说

sed -n 1p listofurls.txt | lynx -dump -stdin

不起作用。

对于一个 URL,更重要的是对于我拥有的每个 URL,我怎么能做到这一点listofurls.txt

4

2 回答 2

0

你可以这样写脚本

vi script.sh

#content of script.sh#
while read line
do
    name=$line
    wget $name
    echo "Downloaded content from - $name"
done < $1
#end#

chmod 777 script.sh

./script.sh listofurls.txt
于 2014-06-28T12:00:59.390 回答
0

要将一个 URL 传送到 lynx,您可以使用xargs

sed -n 1p listofurls.txt | xargs lynx -dump

要从文件中下载所有 URL(由 lynx 解析并打印出来),您可以执行以下操作:

while read url; do lynx - -dump $url; done < listofurls.txt
于 2014-06-28T14:14:09.450 回答