linux - 如何在 Linux 中使用 lynx/w3m 提取多个 URL 的文本

Question

我在一个文本文件中列出了 50 个奇怪的 URL（每行一个 URL）。现在，对于每个 URL，我想提取网站的文本并将其保存下来。这听起来像是 Linux 中 shell 脚本的工作。

目前我正在把事情放在一起：

比如说sed -n 1p listofurls.txt我可以读取我的 URL 文件中的第一行，listofurls.txt
我可以使用lynx -dump www.firsturl...输出通过各种命令进行管道整理和清理。完成，这行得通。

在自动化之前，我正在努力将 URL 输入到 lynx 中：比如说

sed -n 1p listofurls.txt | lynx -dump -stdin

不起作用。

对于一个 URL，更重要的是对于我拥有的每个 URL，我怎么能做到这一点listofurls.txt？

score 0 · Accepted Answer

你可以这样写脚本

vi script.sh

#content of script.sh#
while read line
do
    name=$line
    wget $name
    echo "Downloaded content from - $name"
done < $1
#end#

chmod 777 script.sh

./script.sh listofurls.txt

score 0 · Accepted Answer

要将一个 URL 传送到 lynx，您可以使用xargs：

sed -n 1p listofurls.txt | xargs lynx -dump

要从文件中下载所有 URL（由 lynx 解析并打印出来），您可以执行以下操作：

while read url; do lynx - -dump $url; done < listofurls.txt

linux - 如何在 Linux 中使用 lynx/w3m 提取多个 URL 的文本

2 回答 2

Related

Reference