php - 如何转换混合编码文件的字符

Question

我从 PDF 文件中复制并粘贴了文本，但它没有提取数字。如果我对导出的 txt 文件执行更少或更多操作，我会看到以下内容：

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"

它应该是：

“克里斯蒂娜，大卫布罗迪的女儿，1665 年 11 月 5 日。她是”

最初我虽然这将是一个简单的搜索和替换，但<U+F73n>数字是编码的，我不确定如何提取它们，甚至不确定它们是如何编码的，尽管我确实将文件保存为utf-8原始文件。我尝试使用 php 的mb_string函数来查看是否可以以某种方式提取代码，但我没有成功。

有没有其他人遇到过这个问题，是否有一个简单的解决方案让我望而却步？

score 1 · Accepted Answer

不幸的是，U+Fxxx 位于 Unicode 的私人使用区。没有自动的方法来解决这个问题，除非提前知道映射。根据您示例中的代码点，我敢说您可以从字符值中减去 0xF731，然后添加 0x30 以将它们转换为 ASCII 数字。

1 回答 1