4

我正在为 html 抓取网页,当我使用 php strip_tags 时,它会将整个 html 压缩成一行,删除所有结构。

我想通过用换行符替换关闭的 h、p 和 br 标记来保留结构。

preg 替代品会是最好的解决方案吗?

一旦我替换了所有结束标签,我就会运行一个条形标签,但这样我就有了一个基本的结构。

4

2 回答 2

9
$str = 'some html';
$tags = array('</p>','<br />','<br>','<hr />','<hr>','</h1>','</h2>','</h3>','</h4>','</h5>','</h6>');
$str = str_replace($tags,"\n",$str);

// then strip tags
于 2011-12-14T09:05:26.613 回答
0

为什么不通过整洁的后记来恢复结构呢?

于 2011-12-14T09:09:03.707 回答