5

我正在使用 HTML Agility Pack 选择一个元素并从加载的 html 字符串中返回该元素及其包含的所有内容。在测试我的代码时,我针对 w3schools 的选择标签示例运行它:

<select name="cars">
  <option value="volvo">Volvo XC90</option>
  <option value="saab">Saab 95</option>
  <option value="mercedes">Mercedes SLK</option>
  <option value="audi">Audi TT</option>
</select>

当我尝试使用 HTML 敏捷包选择并返回它时,我得到(删除了选项结束标签):

<select name="cars">
  <option value="volvo">Volvo XC90
  <option value="saab">Saab 95
  <option value="mercedes">Mercedes SLK
  <option value="audi">Audi TT
</select>

所以我在这里做了一些搜索,找到了添加该行的指令:HtmlNode.ElementsFlags.Remove("option");

我这样做了,现在我得到了(选项文本移到选项标签之外):

<select name="cars">
  <option value="volvo"></option>Volvo XC90
  <option value="saab"></option>Saab 95
  <option value="mercedes"></option>Mercedes SLK
  <option value="audi"></option>Audi TT
</select>

我希望输出与原始 HTML 匹配。我需要做什么才能得到它?

我也在使用 OptionWriteEmptyNodes,因为当我使用输入标签进行测试时,它们的自关闭被删除了,添加该选项似乎可以解决这个问题。我现在评论它以确保它不会影响这个问题。

这是我的 .NET C# 代码:

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(content);
HtmlNode.ElementsFlags.Remove("option"); // otherwise, the closing tag is removed.

//doc.OptionWriteEmptyNodes = true;

var nodes = doc.DocumentNode.SelectNodes("//select");

if (nodes == null)
    return "Not found";
else
    return nodes[0].OuterHtml;
4

1 回答 1

4

您需要为选项标签设置 ElementsFlag 字段以使其工作

HtmlNode.ElementsFlags["option"] = HtmlElementFlag.Closed;

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);

它应该返回您的原始 HTML 代码。

我相信 HtmlAgilityPack 以这种方式运行的原因是,具有讽刺意味<option>的是, -tag 是HTML 中的一个可选标签,不需要结束标签。

取自HtmlNode该类的文档及其字段ElementsFlags

获取为特定元素节点定义特定行为的标志集合。该表包含一个 DictionaryEntry 列表,其中小写标记名称作为键,HtmlElementFlags 的组合作为值。

进一步研究HtmlElementFlag枚举揭示了这一点:

空 - 节点为空。META 或 IMG 是此类节点的示例。Closed - 解析期间节点将自动关闭。

您可以查看HtmlNode类的源代码,以了解哪些其他标签被视为“特定”。

于 2013-07-30T14:41:21.590 回答