0

我有一个(大)文本正文,我正在尝试将其从最初的网络友好格式转换为“稍微”限制性更强的内容(epub——有些读者对他们接受的 HTML 非常挑剔) .

HTML 净化器在一类问题上工作得很好,我称之为“糟糕的编码”。诸如缺少右括号(这在技术上是合法的 HTML)以及浏览器自动解决的其他烦恼。

HTML 净化器无法正常工作的地方是遇到编码问题。许多字符保存在 Ӓ 格式,(显然?)HTML净化器不关心。也许我只需要更好地配置它。另一个问题是我存在的祸根:花引号、破折号等。我已经设法对其中一些问题进行了大规模搜索和替换,但我担心的是我可能在某个地方错过了一个角色(因为遇到一个用口音和拼写的似曾相识的案例带回家)包括严重标记)。

有没有办法让 HTML 净化器告诉我这些字符存在问题,而不是默默地剥离它们?我正在尝试查看代码,但该软件非常适合不同的用例场景(“静默”处理用户输入,而不是程序员对文本正文进行大量转换),而我只是没有看到我正在寻找的数据。

4

1 回答 1

0

我认为这个函数mysql_real_escape_string($text)用于解决您的问题

$text="这是一个由来已久的事实,即读者在查看页面布局时会被页面的可读内容分散注意力。使用 Lorem Ipsum 的关键在于它或多或少地具有正态分布的字母,与使用“这里的内容,这里的内容”相反,使它看起来像可读的英语。许多桌面发布包和网页编辑器现在使用 Lorem Ipsum 作为其默认模型文本,搜索“lorem ipsum”将发现许多网站仍处于起步阶段。多年来,各种版本不断演变,有时是偶然的,有时是故意的(注入幽默之类的)。

$main = mysql_real_escape_string($text);

于 2013-04-26T06:15:58.013 回答