我们使用的是 Perl 版本 5.8.8。我相信它有一些 Unicode (UTF-8) 支持,但我不相信它是可靠的。使用 Perl 5.8.8 处理和保存数据的最佳选择是什么?html实体与实际处理Unicode怎么样?我们处理非常大的文档。为了使许多功能正常工作,我们目前过滤/替换一些 Unicode,将一些非恒定编码作为 html 授权,并且一些代码通过但转义匹配并导致许多必须修复的错误修复逐个。有些可能被忽视了,我们生活在减少的排版中。我是那种对此有点恼火的类型。
到目前为止,我的想法是输入 Unicode 字符很麻烦,并且扩展的标点字符比实体更难在视觉上区分。最后,我阅读了有关处理 Unicode 的文章,并认为它可能对使用当代 Perl 版本的新项目有好处,但难以改造,因此将脚本标准化为 html 实体似乎是一个更好的选择。另一方面,边界代码或脚本无论如何都需要使用 Unicode。我认为它不会影响 JavaScript 中的功能。我相信这些实体很快就会被翻译成 Unicode 字符并成为 DOM 文本节点的常规元素。
是否有一个库或脚本可以始终规范 Unicode和html 实体的使用?如果是实体,它应该使用命名实体的简短词典在该空间内进行规范化,其余部分默认为数字。那将是一个单独的步骤,并且相对容易。其他步骤是修改输入脚本以帮助规范化 Perl 代码,并创建一些习惯用法来匹配诸如破折号、具有多个选项的引号之类的元素。