13

所以,我正在使用 HtmlAgilityPack 生成 html,它运行良好,但 html 文本没有缩进。但是,我可以获得缩进的 XML,但我需要 HTML。有办法吗?

HtmlDocument doc = new HtmlDocument();

// gen html
HtmlNode table = doc.CreateElement("table");
table.Attributes.Add("class", "tableClass");
HtmlNode tr = doc.CreateElement("tr");
table.ChildNodes.Append(tr);
HtmlNode td = doc.CreateElement("td");
td.InnerHtml = "—";
tr.ChildNodes.Append(td);

// write text, no indent :(
using(StreamWriter sw = new StreamWriter("table.html"))
{
        table.WriteTo(sw);
}

// write xml, nicely indented but it's XML!
XmlWriterSettings settings = new XmlWriterSettings();
settings.OmitXmlDeclaration = true;
settings.Indent = true;
settings.ConformanceLevel = ConformanceLevel.Fragment;
using (XmlWriter xw = XmlTextWriter.Create("table.xml", settings))
{
        table.WriteTo(xw);
}
4

4 回答 4

8

快速、可靠、纯 C#、.NET Core 兼容 AngleSharp

您可以使用AngleSharp解析它, 它提供了一种自动缩进的方法:

var parser = new HtmlParser();
var document = parser.ParseDocument(text);
using (var writer = new StringWriter())
{
    document.ToHtml(writer, new PrettyMarkupFormatter
                            {
                                Indentation = "\t",
                                NewLine = "\n"
                            });
    var indentedText = writer.ToString();
}
于 2019-03-08T08:35:53.500 回答
6

不,这是一个“设计”的选择。XML(或 XHTML,它是 XML,而不是 HTML)与 HTML 之间有很大的区别,在大多数情况下,空格没有特定的含义。

这不是一个很小的改进,因为更改空格可以改变某些浏览器呈现给定 HTML 块的方式,尤其是格式错误的 HTML(通常由库很好地处理)。Html Agility Pack 旨在保持 HTML 的呈现方式,而不是最小化标记的编写方式。

我并不是说这不可行或完全不可能。显然,您可以转换为 XML 并瞧瞧(您可以编写一个扩展方法来简化此操作),但在一般情况下,呈现的输出可能会有所不同。

于 2011-05-11T18:45:42.840 回答
4

据我所知,HtmlAgilityPack 无法做到这一点。但是您可以查看类似问题中提出的 html tidy pack:

于 2011-05-10T10:45:39.523 回答
1

即使 HtmlAgilityPack 非常适合阅读和修改 Html(或在我的情况下为 asp)文件,我也获得了相同的体验,但您无法创建可读的输出。

但是,我最终编写了一些对我有用的代码行:

拥有一个名为“m_htmlDocument”的 HtmlDocument,我创建了我的 HTML 文件,如下所示:

file = new System.IO.StreamWriter(_sFullPath);
            if (m_htmlDocument.DocumentNode != null)
                foreach (var node in m_htmlDocument.DocumentNode.ChildNodes)
                    WriteNode(file, node, 0);

void WriteNode(System.IO.StreamWriter _file, HtmlNode _node, int _indentLevel)
    {
        // check parameter
        if (_file == null) return;
        if (_node == null) return;

        // init 
        string INDENT = " ";
        string NEW_LINE = System.Environment.NewLine;

        // case: no children
        if(_node.HasChildNodes == false)
        {
            for (int i = 0; i < _indentLevel; i++)
                _file.Write(INDENT);
            _file.Write(_node.OuterHtml);
            _file.Write(NEW_LINE);
        }

        // case: node has childs
        else
        {
            // indent
            for (int i = 0; i < _indentLevel; i++)
                _file.Write(INDENT);

            // open tag
            _file.Write(string.Format("<{0} ",_node.Name));
            if(_node.HasAttributes)
                foreach(var attr in _node.Attributes)
                    _file.Write(string.Format("{0}=\"{1}\" ", attr.Name, attr.Value));
            _file.Write(string.Format(">{0}",NEW_LINE));

            // childs
            foreach(var chldNode in _node.ChildNodes)
                WriteNode(_file, chldNode, _indentLevel + 1);

            // close tag
            for (int i = 0; i < _indentLevel; i++)
                _file.Write(INDENT);
            _file.Write(string.Format("</{0}>{1}", _node.Name,NEW_LINE));
        }
    }
于 2015-07-18T16:30:51.353 回答