9

使用 VB.net 或 c#,如何获取生成的 HTML 源代码?

要获取页面的 html 源代码,我可以在下面使用它,但这不会获取生成的源代码,它不会包含任何由浏览器中的 javascript 动态添加的 html。如何获得最终生成的 HTML 源代码?

谢谢

WebRequest req = WebRequest.Create("http://www.asp.net"); 
WebResponse res = req.GetResponse(); 
StreamReader sr = new StreamReader(res.GetResponseStream()); 
string html = sr.ReadToEnd();

如果我在下面尝试这个,那么它会返回没有注入 JavaScript 代码的文档

Public Class Form1

    Dim WB As WebBrowser = Nothing

    Private Sub Form1_Load(sender As Object, e As EventArgs) Handles MyBase.Load

        WB = New WebBrowser()
        Me.Controls.Add(WB)
        AddHandler WB.DocumentCompleted, AddressOf WebBrowser1_DocumentCompleted


        WB.Navigate("mysite/Default.aspx")

    End Sub

    Private Sub WebBrowser1_DocumentCompleted(sender As Object, e As WebBrowserDocumentCompletedEventArgs)


        'Dim htmlcode As String = WebBrowser1.Document.Body.OuterHtml()
        Dim s As String = WB.DocumentText

    End Sub
End Class

返回的 HTML

<!DOCTYPE html>

<html xmlns="http://www.w3.org/1999/xhtml">
<head runat="server">
    <title></title>

</head>
<body>
    <form id="form1" runat="server">
    <div id="center_text_panel">
    //test text  this text should be here
    </div>
    </form>
</body>
</html>

    <script type="text/javascript">

        document.getElementById("center_text_panel").innerText = "test text";


    </script>
4

3 回答 3

2

您可以使用WebKit.NET

看这里官方教程

这样不仅可以抓取源码,还可以通过pageload事件处理javascript。

webKitBrowser1.Navigate(MyURL)

然后,处理 DocumentCompleted 事件,然后:

private documentContent = webKitBrowser1.DocumentText

编辑- 这可能是更好的开源 WebKit 选项:http ://code.google.com/p/open-webkit-sharp/

于 2013-02-13T06:24:21.960 回答
1

只需webbrowser在您的表单中添加一个控件,然后您就可以运行代码:

 webBrowser1.Navigate("YourLink");

     private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
           string htmlcode= webBrowser1.Document.Body.InnerHtml;//Or Each Filed Or element..//WebBrowser.DocumentText
        }

已编辑

要获取由 java 脚本代码动态生成的 html 代码,您有两种方法:

  1. webBrowser1_DocumentCompleted在事件之后运行流动代码
 StringBuilder htmlcode = new StringBuilder();
            foreach (HtmlElement item in webBrowser1.Document.All)
            {
                htmlcode.Append( item.InnerHtml);
            }
  1. 编写一个用于返回document.documentElement.innerHTML和使用 InvolkeScript 函数返回结果的 javascript 代码:
   var htmlcode = webBrowser1.Document.InvokeScript("javascriptcode");
于 2013-02-13T06:28:44.383 回答
0

您可以使用以下代码:

webBrowser1.Document.Body.OuterHtml
于 2017-06-29T15:36:53.483 回答