我需要一些关于我的 bash shell 的帮助,这对我来说似乎很简单。我希望能够提取给定网站的所有链接并将它们打印到标准输出。我想通过我自己的脚本来完成这一切。我的目标是拥有命令和网站,我将从那里提取所有链接,作为一个论点。这是我到目前为止所拥有的:
猫>提取链接
卷曲 $1 | grep
如果这不是一个开始,我真的没有太多的编程经验,很抱歉。有必要使用正则表达式吗?如果有人愿意提供帮助,将非常感谢尽可能简单的代码。谢谢!
这是一个单行:
grep 'https?://[\w/&=.?]+' $1
这将找到所有网址。如果通过“链接”你真的是指“锚标签”,这有点棘手,但可行。您没有提供任何示例输入或输出,所以我无法确定您想要什么。
您可以使用正则表达式变得更有趣。这取决于它们如何嵌入到您的文档中
这在 Python 中要容易得多。
只需使用x = string.find('href="')
, 并将字符串定义为string[x:]
,然后运行string.find('"')
并使用该值来删除 url( print string[x:y]
)。把它放到一个while循环中,你应该很高兴