我有一个PDF文档(那是我的教科书),问题是虽然文本打印正常,但它是以一些随机字形的形式复制的。我发现,这是因为文本在 cp1251 上编码但试图解码为 cp1252(反之亦然 idk,但复制的字形属于 1252)。将文本从1252粘贴到解码器到1251我可以得到原始文本(图片相关)
为了解决我的文本搜索和复制问题,我只使用了 OCR,但也许有办法改变它在某些 pdf 标题中的编码?此外,我确实需要为学校研讨会复制一些插图,但 Inkscape 和 AI 仍然会在 1252 年输出这些字形。
在 Adobe Acrobat DC 中打开文字,我看到他在抱怨字体 1251 Times。在 Npp 我发现了这样的
1146 0 obj
<<
/Ascent 756
/CapHeight 750
/Descent -195
/Flags 32
/FontBBox [-91 -224 1237 943]
/FontFamily (1251 Times)
/FontFile2 1147 0 R
/FontName /OGAHOK+1251Times
/FontStretch /Normal
/FontWeight 400
/ItalicAngle 0
/StemV 90
/Type /FontDescriptor
>>
endobj
1145 0 obj
<<
/BaseFont /OGAHOK+1251Times
/Encoding /WinAnsiEncoding
/FirstChar 32
/FontDescriptor 1146 0 R
/LastChar 255
/Subtype /TrueType
/Type /Font
/Widths [351 0 0 0 0 0 828 0 392 392 0 0 326 448 288 455 531 533 532 532 532 532 532 531 531 532 288 0 0 0 0 0 864 724 714 776 0 706 0 0 875 417 0 0 0 0 882 0 661 0 770 599 678 0 0 983 0 0 0 0 0 0 0 0 0 495 539 499 565 489 322 491 583 294 0 532 287 887 590 566 563 0 376 385 332 568 486 729 0 503 476 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 554 554 0 952 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 896 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 699 714 0 747 0 0 597 886 0 812 0 1034 875 0 877 0 776 678 729 0 0 858 0 0 0 0 0 0 759 0 0 495 559 523 434 539 489 757 449 622 622 577 550 715 636 566 622 563 499 468 503 764 500 621 553 880 880 0 760 501 517 820 546]
>>
endobj
1150 0 obj
<<
/Filter /FlateDecode
/Length1 32416
/Length 24094
>>
stream
通过用 1252 替换所有出现的 1251,我一无所获。这样做的正确方法是什么?有没有这样正确的方法?