-1

我需要帮助从标题部分中的站点列表中获取 h1,并将其放入 Visual Basic/Studio 的列表框中。

站点的数量相当多,所以我希望会有多线程,或者其他涉及的东西。

网站 html 标头示例:

<header> 
            <a href="http://www.example.org/"><h1>Exmaple header I NEED TO GET THIS</h1></a>
            <p>Example and more gibberish below</p>
            <div class="hero-unit">
                <button data-toggle="modal" data-target="#download" class="btn btn-large btn-download"><i class="icon-unlock icon-white"></i> Instant Download</button>
                <div id="download" class="modal hide fade" aria-hidden="true">
                    <div class="modal-header">
                        <button type="button" class="close" data-dismiss="modal" aria-hidden="true">×</button>
                        <h3>Blahblahblargh</h3>
                    </div>
                    <div class="modal-body" id="gw_content">
                        <img src="./landingpage/_img/wheel-throb.gif" />
                    </div>
                    <div class="modal-footer">
                        <p>Derp</p>
                    </div>
                </div>
                <p>meow</p>
            </div>

我需要从上面的代码中获取 h1。

我很抱歉,因为这可能有点复杂,我计划对此进行很大扩展,我认为这将有利于我的自学经验。

我确实知道 Visual Studio 的基础知识,所以不要认为你必须教我如何制作表单 :)

编辑:

我只需要标题中的 h1 标签。谢谢!

4

1 回答 1

1

您应该尝试使用HtmlAgilityPack来解析 HTML 代码。它可以通过NuGet Package Manager插件轻松安装。

一旦你安装了这个包,并研究了它的一些功能,我建议你使用一个工具,比如HAPTestbed来测试你的正则表达式。它将为您节省大量时间。


这是一个基本示例,您可以将其用作起点:

Dim wc As New WebClient()
Dim html = wc.DownloadString("http://some-web-site.com/")
wc.Dispose()
Dim htmlDoc As New HtmlDocument()
htmlDoc.LoadHtml(html)
For Each h1Node In htmlDoc.DocumentNode.SelectNodes("//h1")
    ' Do Something...
Next
于 2013-02-05T02:58:44.453 回答