0

我想从一些 pdf 文件中提取文本(以编程方式,使用一些实用程序,甚至使用复制/粘贴),但有些字符出来真的很奇怪。虽然我在提取文本时指定了 UTF-8 编码,但像“ș、ț、ă”等字符看起来像“„˛”而不是“s、t、a”(或至少显示的字符)。文本显示正确,但是当我尝试复制它时,这些字符不正确。
是否有某种方法可以正确提取文本,或者这些 pdf 文件是否以某种方式损坏(java/C/python 等或 windows/linux/etc 实用程序)?

4

1 回答 1

0

您可以在 Acrobat 中正确地从 PDF 中提取文本吗?

于 2012-05-18T10:08:10.453 回答