php - 我可以使用 HTML 净化器来查找编码问题，而不仅仅是剥离它们吗？

Question

我有一个（大）文本正文，我正在尝试将其从最初的网络友好格式转换为“稍微”限制性更强的内容（epub——有些读者对他们接受的 HTML 非常挑剔） .

HTML 净化器在一类问题上工作得很好，我称之为“糟糕的编码”。诸如缺少右括号（这在技术上是合法的 HTML）以及浏览器自动解决的其他烦恼。

HTML 净化器无法正常工作的地方是遇到编码问题。许多字符保存在 Ӓ 格式，（显然？）HTML净化器不关心。也许我只需要更好地配置它。另一个问题是我存在的祸根：花引号、破折号等。我已经设法对其中一些问题进行了大规模搜索和替换，但我担心的是我可能在某个地方错过了一个角色（因为遇到一个用口音和拼写的似曾相识的案例带回家）包括严重标记）。

有没有办法让 HTML 净化器告诉我这些字符存在问题，而不是默默地剥离它们？我正在尝试查看代码，但该软件非常适合不同的用例场景（“静默”处理用户输入，而不是程序员对文本正文进行大量转换），而我只是没有看到我正在寻找的数据。

score 0 · Accepted Answer

我认为这个函数mysql_real_escape_string($text)用于解决您的问题

$text="这是一个由来已久的事实，即读者在查看页面布局时会被页面的可读内容分散注意力。使用 Lorem Ipsum 的关键在于它或多或少地具有正态分布的字母，与使用“这里的内容，这里的内容”相反，使它看起来像可读的英语。许多桌面发布包和网页编辑器现在使用 Lorem Ipsum 作为其默认模型文本，搜索“lorem ipsum”将发现许多网站仍处于起步阶段。多年来，各种版本不断演变，有时是偶然的，有时是故意的（注入幽默之类的）。

$main = mysql_real_escape_string($text);

php - 我可以使用 HTML 净化器来查找编码问题，而不仅仅是剥离它们吗？

1 回答 1

Related

Reference