我从 PDF 文件中复制并粘贴了文本,但它没有提取数字。如果我对导出的 txt 文件执行更少或更多操作,我会看到以下内容:
"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"
它应该是:
“克里斯蒂娜,大卫布罗迪的女儿,1665 年 11 月 5 日。她是”
最初我虽然这将是一个简单的搜索和替换,但<U+F73n>
数字是编码的,我不确定如何提取它们,甚至不确定它们是如何编码的,尽管我确实将文件保存为utf-8
原始文件。我尝试使用 php 的mb_string
函数来查看是否可以以某种方式提取代码,但我没有成功。
有没有其他人遇到过这个问题,是否有一个简单的解决方案让我望而却步?