1

基本上我想做的是从 HTML Web 文档中获取文本,

<a href="showthread.php?tid=2632829">1</a> 
<a href="showthread.php?tid=2342818">1</a> 
<a href="showthread.php?tid=2342818">1</a> 
<a href="showthread.php?tid=2342818">1</a> 
....
....

所有这些链接都在不同的行中,并且它们之间还有许多其他脚本。现在的问题是我想1</a>在这些文档中搜索“”并获取链接

showthread.php?tid=11digitnumber 

然后我想将它们逐行放置在richtextbox中

    showthread.php?tid=11digitnumber
    showthread.php?tid=11digitnumber
    showthread.php?tid=11digitnumber

...

到目前为止我所做的是使用

source = WebBrowser1.DocumentText.ToString()

早些时候我有一些运气使用

dim ss,variable as string

variable = ss.Substring(ss.LastIndexOfAny(">1</a> ") - 27, 27)
output:
showthread.php?tid=11digitnumber

但我只能使用一次,除了文档中有很多这样的文件

4

1 回答 1

1

你只需要玩一些逻辑,比如:

myOriginPoint = your starting point (usually 0)

myLastOccurrence = your last point (usually with LastIndexOf)

然后你可以使用一个循环和一个时间列表,如:

List<String> urls = new List<String>();

while(myOriginPoint < myLastOccurrence )
{

    //retrieve the keyword
    var urlFound = your logic to retrieve the url

    //save the keyword 
    urls.Add(urlFound);

    //move to next position 

    myOriginPoint = indexOf  +1;

}

顺便说一句,您还可以在 .Net 中使用 WebClient,更好地从 url 检索数据:http: //msdn.microsoft.com/en-us/library/system.net.webclient.aspx

我希望它有所帮助,

于 2012-11-26T14:25:39.903 回答