0

我们使用的是 Perl 版本 5.8.8。我相信它有一些 Unicode (UTF-8) 支持,但我不相信它是可靠的。使用 Perl 5.8.8 处理和保存数据的最佳选择是什么?html实体与实际处理Unicode怎么样?我们处理非常大的文档。为了使许多功能正常工作,我们目前过滤/替换一些 Unicode,将一些非恒定编码作为 html 授权,并且一些代码通过但转义匹配并导致许多必须修复的错误修复逐个。有些可能被忽视了,我们生活在减少的排版中。我是那种对此有点恼火的类型。
到目前为止,我的想法是输入 Unicode 字符很麻烦,并且扩展的标点字符比实体更难在视觉上区分。最后,我阅读了有关处理 Unicode 的文章,并认为它可能对使用当代 Perl 版本的新项目有好处,但难以改造,因此将脚本标准化为 html 实体似乎是一个更好的选择。另一方面,边界代码或脚本无论如何都需要使用 Unicode。我认为它不会影响 JavaScript 中的功能。我相信这些实体很快就会被翻译成 Unicode 字符并成为 DOM 文本节点的常规元素。

是否有一个库或脚本可以始终规范 Unicodehtml 实体的使用?如果是实体,它应该使用命名实体的简短词典在该空间内进行规范化,其余部分默认为数字。那将是一个单独的步骤,并且相对容易。其他步骤是修改输入脚本以帮助规范化 Perl 代码,并创建一些习惯用法来匹配诸如破折号、具有多个选项的引号之类的元素。

4

1 回答 1

0

Perl 5.8.8 存储 Unicode 字符的字符串没有问题。(今天在 5.18 中仍然使用相同的字符串存储格式。)

Perl 5.8.8 将 Unicode 字符的字符串编码为 UTF-8 没有问题。(在 CPAN 上可以找到比 5.18 包含的更新版本的 Encode,我敢打赌它在 5.8.8 上安装得非常好。)

HTML::Entities会将您想要的encode_entities代码点编码为实体,当它们存在时使用命名实体,否则使用编号实体。

于 2013-05-25T05:37:12.497 回答