0

我一直在开发一个程序,使我能够监控我的哪些公司的客户正在链接到我们的网站。如果我可以让它工作,它将节省大量浪费在手动搜索客户网站上的时间。

目前我有一个存储所有客户端主页 URL 的数据库。我的程序正在遍历这些 URL,获取它们的 SourceCode 并将 SourceCode 放入文本框中。然后它在文本框中搜索我的公司 URL,并返回“真”或“假”值。

如果“真”则链接存在,但如果“假”我需要我的程序搜索同一站点上的其他页面并检查链接是否存在于其他任何地方。

为此,我需要我的程序循环浏览源代码(已经在文本框中)并找到链接到同一站点上其他页面的所有其他 URL(例如 www.example.com、www.example.com/contact-us、www .example.com/about) 并将它们存储在一个列表中。我不知道该怎么做?

4

1 回答 1

0

如何基于...的解决方案

正则表达式帮助:获取除扩展名 .css、.js、.jpg、.gif、.png 之外的 URL 列表

            Dim MyRegex As New Regex("href=""(?<URL>(?:(?!javascript)(?!#))[a-zA-Z0-9\~\!\@\#\$" + "\%\^\&amp;\*\(\)_\-\=\+\\\/\?\.\:\;\'\,]+)" + "(?<!(?:\.png|\.js|\.jpg|\.jpeg|\.css|\.gif|\.zip|\.r" + "ar))""(?:$|>|\s)", RegexOptions.Multiline Or RegexOptions.CultureInvariant Or RegexOptions.Compiled)

            Dim matches As MatchCollection = MyRegex.Matches(textbox1.text)
            For Each item In matches
                ListBox1.Items.Add(item.ToString())

            Next

然后你需要过滤掉不相关的网站?

于 2012-10-17T15:28:29.717 回答