0

我有这段 html

<div>
  Outside paragraph
  <p>In paragraph</p>
</div>

正如你所看到的,有Outside paragraph一段文字在段落之外,不是想要的情况。

是否有任何 AngleSharp 方法(如果不是 Anglesharp,那么任何其他方法)可以让我规范化/修复这段 html,使其看起来像:

<div>
  <p>Outside paragraph</p>
  <p>In paragraph</p>
</div>

所以,一段代码将放在Outside paragraph段落中

4

1 回答 1

2

AngleSharp 不提供这样的自定义逻辑,但让您能够推出自己的规范化方案。

在以下示例中,我使用TreeWalker来简化仅对文本节点的迭代。

代码查找给定条件以动态插入段落。

var context = BrowsingContext.New();
var document = await context.OpenAsync(res => res.Content("foo<div>Outside<p>Inside</p></div>bar"));
var walker = document.CreateTreeWalker(document.Body, AngleSharp.Dom.FilterSettings.Text);

while (walker.ToNext() != null)
{
    var current = walker.Current;

    // if just whitespace, e.g., formatting line breaks, or in p anyway - skip
    if (
        (current.TextContent.Trim().Length == 0) ||
        (current.ParentElement.LocalName == "p"))
    {
        continue;
    }
    // if next to paragraph perform the normalization
    else if (
        (current.PreviousSibling is IElement previous && previous.LocalName == "p") ||
        (current.NextSibling is IElement next && next.LocalName == "p"))
    {
        var newNode = document.CreateElement("p");
        current.ReplaceWith(newNode);
        newNode.Append(current);
    }
}

document.Body.ToHtml().Dump();

转储的结果如下所示:

<body>foo<div><p>Outside</p><p>Inside</p></div>bar</body>

这可能不是您所需要的一切,但应该为您提供正确方向的指针。

注意:您还可以滚动您自己的(递归)迭代或使用,例如,IMarkupFormatter将规范化作为序列化的自定义。有多种方法。给定的改变了 DOM - 因为这样的进一步操作(不仅仅是序列化)是可能的。

希望有帮助!

于 2019-05-17T13:53:03.887 回答