我需要提取驻留在 Intranet 上的页面的所有链接,但我不确定如何最好地做到这一点。网站结构如下
主题列表
话题一
话题二
话题 3
ETC
现在链接驻留在每个主题页面中。我想避免手动通过超过 500 个主题页面来提取 URI。
每个主题页面具有以下结构
http://alias/filename.php?cat=6&number=1
cat
参数是指类别,参数number
是指主题。
一旦进入主题页面,我需要提取的 URI 再次以特定格式存在
http://alias/value?id=somevalue
注意事项
- 我无权访问数据库,因此无法选择通过它进行拖网搜索
- 每个主题页面中只有一个 URI
- 我需要将列表提取到一个文件中,该文件仅在新行中列出每个 URI
我想执行某种可以通过 BASH 从终端运行的脚本,该脚本将遍历主题 URI,然后是每个主题中的 URI。
简而言之
如何使用可以使用 BASH 运行的脚本来提取列表,该脚本将递归地遍历所有主题列表,然后在每个主题页面中提取 URI,并在一个新的提取的 URI 中生成一个文本文件线。