我正在构建一个小型解析器,用于抓取网页并在其上记录数据。要记录的一件事是论坛的帖子标题。我正在使用 XML 解析器来查看 DOM 并获取此信息,并且我将其存储如下:
// Strip out the post's title
$title = $page->find('a[rel=bookmark]', 0);
$title = htmlspecialchars_decode(html_entity_decode(trim($title->plaintext)));
这在大多数情况下都有效,但有些帖子有某些特殊的 HTML 字符代码–
,例如破折号 ( -
)。我将如何将这些特殊字符代码转换回其原始字符串?
谢谢。