c# - 更换
,
标签内的标签？

Question

我正在开发一个专门的 HTML 剥离器。当前的剥离器将 <td> 标记替换为制表符，然后将 <p> 和 <div> 标记替换为双回车符。但是，当像这样剥离代码时：

<td>First Text</td><td style="background:#330000"><p style="color:#660000;text-align:center">Some Text</p></td>

它（显然）产生

First Text

Some Text

在这种情况下，我们希望将 <p> 替换为空，因此它会产生：

First Text (tab) Some Text

但是，对于 <p> 标签未被 <td> 标签包围的其他代码，我们希望保留双回车替换。

基本上，我们试图用 \t 替换 <td> 标签，并且只有当它们没有被 <td> 标签包围时，才用 \r\r 替换 <p> 和 <div> 标签。

当前代码：（C#）

  // insert tabs in places of <TD> tags
  result = System.Text.RegularExpressions.Regex.Replace(result,
           @"<td\b(?:[^>""']|""[^""]*""|'[^']*')*>", "\t",
           System.Text.RegularExpressions.RegexOptions.IgnoreCase);  

  // insert line paragraphs (double line breaks) in place
  // of <P>, <DIV> and <TR> tags
  result = System.Text.RegularExpressions.Regex.Replace(result,
           @"<(div|tr|p)\b(?:[^>""']|""[^""]*""|'[^']*')*>", "\r\r",
           System.Text.RegularExpressions.RegexOptions.IgnoreCase);

（剥离器有更多代码；这是相关部分）

关于如何在不完全重写整个剥离器的情况下做到这一点的任何想法？

编辑：我宁愿不使用图书馆，因为让人头疼的是要让它签署并包含在项目中（它本身就是一个要包含在另一个项目中的库），更不用说法律问题了。不过，如果没有其他解决方案，我可能会使用 HTML Agility Pack。

大多数情况下，剥离器只是删除它发现的任何看起来像标签的东西（使用基于正则表达式食谱中的正则表达式的大型正则表达式完成。用 /r 替换换行符标签，并处理多个选项卡是首当其冲的自定义剥离代码。

score 2 · Accepted Answer

您是否考虑过查看HTML Agility Pack，其中内置了许多用于操作标签的解析选项？

score 2 · Accepted Answer

找到了答案：

  // remove p/div/tr inside of td's
  result = System.Text.RegularExpressions.Regex.Replace(result, @"<td\b(?:[^>""']|""[^""]*""|'[^']*')*>.*?</td\b(?:[^>""']|""[^""]*""|'[^']*')*>", new MatchEvaluator(RemoveTagsWithinTD));

此代码为每个匹配调用此单独的方法：

  //a separate method
  private static string RemoveTagsWithinTD(Match matchResult) {
      return Regex.Replace(matchResult.Value, @"<(div|tr|p)\b(?:[^>""']|""[^""]*""|'[^']*')*>", "");
    }

这段代码（再次）基于正则表达式食谱中的另一个配方（它一直坐在我面前，d'oh！）。这真的是一本很棒的书。

score 0 · Accepted Answer

就使用正则表达式编写它而言，我没有答案，但我强烈推荐HTML Agility Pack用于这样的事情。您应该能够使用简单的选择器轻松找到节点，并将它们替换为您想要的任何内容。

score 0 · Accepted Answer

所以如果你不能使用敏捷包。如果您创建了一个简单的匹配来检查块的存在会怎样。如果存在，那么您可以对块内的标签进行所有正确的替换，否则有第二组替换适用于不在块内的标签。

无需重写现有的替换，只需为您的其他条件创建一个更简单的替换。我想这将取决于在 HTML 剥离的一个“单元”中解析了多少文本。

c# - 更换,标签内的标签？

4 回答 4

Related

Reference

c# - 更换
,
标签内的标签？