java - 生成的 PDF 中的 HTML 内容存在问题

Question

我正在从 HTML 生成 PDF，但我的 PDF 页面没有将其解释为普通文本，而是填充了 html 标签，如<p>、<li>等。

score 0 · Accepted Answer

您需要删除所有标签并取消转义特殊字符。

PHP 示例：

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

VB.NET 示例：

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Java 示例：

text = html.replaceAll("<[^>]*>", "");

对于 html 实体解码，您可以在这里找到一个很好的答案：Java: How to unescape HTML character entity in Java? . 否则，如果您知道所有这些（，，...），则可以替换 它们"。

1 回答 1