0

我正在编写一些代码来遍历 HTML 页面中的每个元素并提取所有 ID 和类。

我当前的代码能够提取 ID,但我看不到获取类的方法,有人知道我在哪里可以访问这些吗?

    private void ParseElements()
    {
        // GET: Document from Browser
        HtmlDocument ThisDocument = Browser.Document;

        // DECLARE: List of IDs
        List<string> ListIdentifiers = new List<string>();

        // LOOP: Through Each Element
        for (int LoopA = 0; LoopA < ThisDocument.All.Count; LoopA += 1)
        {
            // DETERMINE: Whether ID Exists in Element
            if (ThisDocument.All[LoopA].Id != null)
            {
                // ADD: Identifier to List
                ListIdentifiers.Add(ThisDocument.All[LoopA].Id);
            }
        }
    }
4

1 回答 1

0

您可以获取每个节点的内部 HTML 并使用正则表达式来获取类。或者你可以试试 HTML Agility 包。

就像是...

HtmlAgilityPack.HtmlDocument AgilePack = new HtmlAgilityPack.HtmlDocument();

AgilePack.LoadHtml(ThisDocument.Body.OuterHtml);

HtmlNodeCollection Nodes = AgilePack.DocumentNode.SelectNodes(@"//*");

foreach (HtmlAgilityPack.HtmlNode Node in Nodes)
{
    if (Node.Attributes["class"] != null)
        MessageBox.Show(Node.Attributes["class"].Value);

}
于 2014-12-07T18:07:26.790 回答