0

我从 PDF 文件中复制并粘贴了文本,但它没有提取数字。如果我对导出的 txt 文件执行更少或更多操作,我会看到以下内容:

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of" 

它应该是:

“克里斯蒂娜,大卫布罗迪的女儿,1665 年 11 月 5 日。她是”

最初我虽然这将是一个简单的搜索和替换,但<U+F73n>数字是编码的,我不确定如何提取它们,甚至不确定它们是如何编码的,尽管我确实将文件保存为utf-8原始文件。我尝试使用 php 的mb_string函数来查看是否可以以某种方式提取代码,但我没有成功。

有没有其他人遇到过这个问题,是否有一个简单的解决方案让我望而却步?

4

1 回答 1

1

不幸的是,U+Fxxx 位于 Unicode 的私人使用区。没有自动的方法来解决这个问题,除非提前知道映射。根据您示例中的代码点,我敢说您可以从字符值中减去 0xF731,然后添加 0x30 以将它们转换为 ASCII 数字。

于 2013-01-23T17:41:56.130 回答