我有一串html。我想将所有段落拆分为一个数组列表。但拆分后的段落不应为空。分割后的段落应该包含一些普通文本,如果它只包含 html 文本并且里面没有普通文本,例如:<htmltag> </htmltag>
,那么它应该被销毁或不分割。
这是如何在 html 字符串中拆分段落的示例:
System.Text.RegularExpressions.Match m = System.Text.RegularExpressions.Regex.Match(htmlString, @"<p>\s*(.+?)\s*</p>");
ArrayList groupCollection = new ArrayList();
while (m.Success)
{
groupCollection.Add(m.Value);
m = m.NextMatch();
}
ArrayList paragraphs = new ArrayList();
if (groupCollection.Count > 0)
{
foreach (object item in groupCollection)
{
paragraphs.Add(item);
}
}
上面的代码可以拆分所有段落,但它无法识别哪个段落是空的,就像我上面所说的那样。