0

我正在尝试阅读一些 Unicode 格式的 PHP 女士 Word Doc,比如希伯来语或阿拉伯语。但它以二进制读取并变成一些非场景字符。我在谷歌上搜索了一些示例代码,但没有一个能正常工作,你有使用 Unicode 文档(如阿拉伯语和希伯来语)的经验吗?谢谢

4

1 回答 1

1

PHP 的缺点之一是(至少直到最近)一直是 Unicode 无知的。您通常通过简单地忽略您正在阅读的是 Unicode 并希望您的文档最终所在的 Web 浏览器知道如何处理 Unicode 来解决这个问题。PHP 不会破坏任何东西,它只是不在乎。

根据您尝试执行的操作,PHP 有一些新增功能可以改进 Unicode 处理。其中包括mb_处理多字节字符串的字符串函数。

您还需要了解文本在 Word 文档中的编码方式。Unicode 支持多种格式,最流行和最紧凑的一种是UTF-8,但也有UTF-16UTF-32

于 2011-08-07T11:50:57.433 回答