1

我正在尝试将 HTML 转换为纯文本。我得到很多&\#8217; &\#8220;等等。

我努力了:

  1. html2text命令行
  2. html_entity_decode+ ENT_QUOTES|ENT_HTML401 UTF-8
  3. html_entity_decode(htmlentities($str))
  4. strip_tags
  5. trim

它确实对清理其他东西有很大帮助,但这些东西&\#8217; “并没有得到修复。如何正确转换它们?

4

1 回答 1

1

你试过“htmlspecialchars_decode”吗

<?php
$str = "<p>this -&gt; &quot;</p>\n";
echo htmlspecialchars_decode($str);
// note that here the quotes aren't converted
echo htmlspecialchars_decode($str, ENT_NOQUOTES);
?>

上面的示例将输出:

<p>this -> "</p>
<p>this -> &quot;</p>
于 2012-11-19T09:51:56.100 回答