-2

我需要一些关于我的 bash shell 的帮助,这对我来说似乎很简单。我希望能够提取给定网站的所有链接并将它们打印到标准输出。我想通过我自己的脚本来完成这一切。我的目标是拥有命令和网站,我将从那里提取所有链接,作为一个论点。这是我到目前为止所拥有的:

猫>提取链接

卷曲 $1 | grep

如果这不是一个开始,我真的没有太多的编程经验,很抱歉。有必要使用正则表达式吗?如果有人愿意提供帮助,将非常感谢尽可能简单的代码。谢谢!

4

2 回答 2

0

这是一个单行:

grep 'https?://[\w/&=.?]+' $1

这将找到所有网址。如果通过“链接”你真的是指“锚标签”,这有点棘手,但可行。您没有提供任何示例输入或输出,所以我无法确定您想要什么。

您可以使用正则表达式变得更有趣。这取决于它们如何嵌入到您的文档中

于 2013-09-21T01:40:17.033 回答
-1

这在 Python 中要容易得多。

只需使用x = string.find('href="'), 并将字符串定义为string[x:],然后运行string.find('"')并使用该值来删除 url( print string[x:y])。把它放到一个while循环中,你应该很高兴

于 2013-09-21T01:00:26.520 回答