您的场景有许多边缘情况,并且应该在顶部添加单词。我假设你想做经典的双中断开始一个新的段落,但是这次在父级<div>
(或者当然是其他块元素)中也是如此。
我会让 HTML 解析器完成大部分工作,但我仍然会使用文本搜索和替换(在 xpath 旁边)。所以你会看到即将到来的有点骇人听闻,但我认为相当稳定:
首先,我会选择所有顶级或子级的文本节点。
(.|./div)/text()
此 xpath 与作为标记的锚元素相关,因为它表示 HTML 片段在加载到.<body>
DOMDocument
如果是 div 的孩子,那么我会在开头插入起始段落。
然后在任何情况下,我都会在开始新段落的序列的每次出现处插入一个断标记(这里以注释的形式)(这应该是"\n\n"
因为空白规范化,我可能是错的,如果它不适用,您需要预先进行空白规范化以使其透明地工作)。
/* @var $result DOMText[] */
$result = $xp->query('(.|./div)/text()', $anchor);
foreach ($result as $i => $node)
{
if ($node->parentNode->tagName == 'div')
{
$insertBreakMarkBefore($node, true);
}
while (FALSE !== $pos = strpos($node->data, $paragraphSequence))
{
$node = $node->splitText($pos + $paragraphSequenceLength);
$insertBreakMarkBefore($node);
}
}
这些插入的断点只是用 HTML<p>
标记替换。HTML 解析器会将它们转换成足够的<p>...</p>
对,这样我就可以不用自己编写该算法(尽管这可能很有趣)。这基本上就像我曾经在其他答案中概述的那样工作,但我不再找到链接:
- DOM树修改后,再次获取内部HTML
<body>
。
- 将设置的标记替换为
"<p>"
(这里我也标记了类以使其可见)
- 再次将 HTML 片段加载到解析器中,以使用正确的对重新创建 DOM
<p>...</p>
。
- 再次从
DOMDocument
解析器中获取 HTML,现在是 finally。
这些在代码中概述的步骤(暂时跳过一些函数定义):
$needle = sprintf('%1$s<!--%2$s-->%1$s', $paragraphSequence, $paragraphComment);
$replace = sprintf("\n<p class=\"%s\">\n", $paragraphComment);
$html = strtr($innerHTML($anchor), array($needle . $needle => $replace, $needle => $replace));
echo "HTML afterwards:\n", $innerHTML($loadHTMLFragment($html));
如图所示,双序列被单序列替换。可能最后一个也需要删除(如果适用,您也可以在此处修剪空白)。
最终的 HTML 输出:
<div>
<p class="break">
This text should be wrapped in a p tag.
</p>
</div>
<p class="break">
This also should be wrapped.
</p>
<p class="break">
<b>And</b> this.</p>
一些更好的输出格式的后期制作也很有用。实际上,我认为这样做是值得的,因为它可以帮助您调整算法(完整演示- 只是看到,空白规范化可能不适用于那里。所以请小心使用)。