我正在尝试使用 PDFMiner 从外语 PDF 文件中提取文本,但被 ToUnicode 语句挫败。即使在普通的 PDF 查看器下,该文件的行为也很奇怪。
例如,这是文件中某些文本的屏幕截图:
但是如果我选择并复制文本,它看起来像这样:
िनरकर</p>
您可以看到几个字符发生了变化,尤其是倒数第二个字符。
毫不奇怪,PDFMiner 提取了不正确的文本。但是每个 PDF 查看器都能正确显示这些数据。我怀疑这个问题要么是 ToUnicode 映射,要么是带有连体字符的东西。所需的字母应该是 0x915、0x94D、0x937 的序列。PDFMiner 只报告 0x915,它描述了一个不同的字符。
我需要做什么才能让 PDFMiner 正确提取文本,即在图像中而不是在复制粘贴的文本中?
这是相关 PDF 的链接。