python - pdf2txt 的输出中的这个 (cid:51) 是什么？

Question

所以我试图从 pdf 文件中提取文本，我需要它的位置、宽度、高度、字体。

我尝试了很多，但最有用和最完整的解决方案看起来是PDFMiner，在这种情况下，更准确地说是pdf2txt.py。

我遵循了文档和示例，并尝试Learn More使用以下命令从我的 pdf 中提取文本：

pdf2txt.py -Y normal -t xml -o buttons.xml buttons.pdf

输出buttons.xml如下所示：

<?xml version="1.0" encoding="utf-8" ?>
  <pages>
      <page id="1" bbox="0.000,0.000,799.900,449.944" rotate="0">
      <textbox id="0" bbox="164.979,213.240,247.680,235.944">
          <textline bbox="164.979,213.240,247.680,235.944">
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="164.979,213.240,178.978,235.944" size="22.704">(cid:51)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="173.280,213.240,187.278,235.944" size="22.704">(cid:76)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="181.315,213.240,195.313,235.944" size="22.704">(cid:72)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="189.350,213.240,203.348,235.944" size="22.704">(cid:89)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="194.795,213.240,208.793,235.944" size="22.704">(cid:85)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="203.096,213.240,217.094,235.944" size="22.704">(cid:3)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="206.987,213.240,220.986,235.944" size="22.704">(cid:52)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="219.684,213.240,233.682,235.944" size="22.704">(cid:86)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="228.237,213.240,242.235,235.944" size="22.704">(cid:89)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="233.682,213.240,247.680,235.944" size="22.704">(cid:76)</text>
              <text></text>
          </textline>
          </textbox>
          <textgroup bbox="164.979,213.240,419.659,235.944">
              <textbox id="0" bbox="164.979,213.240,247.680,235.944" />
          </textgroup>
      </page>
  </pages>

第一个字符应该是 L 并且 51(cid:51)似乎与我在句子中的任何字符都不匹配，关于ascii 表和utf-8 表

所以正如标题所说，我想知道它是什么，以及如何使用这些(cid:51)...？

编辑

所以我发现程序写入的不是真正的字符 (cid:%d)，因为他不承认这是一个 unicode 字符串。

它首先调用此函数来编写字符：

def render_char(self, matrix, font, fontsize, scaling, rise, cid):
    try:
        text = font.to_unichr(cid)
        assert isinstance(text, unicode), text
    except PDFUnicodeNotDefined:
        text = self.handle_undefined_char(font, cid)

但是assert失败并触发PDFUnicodeNotDefined被捕获并调用的事件：

def handle_undefined_char(self, font, cid):
    if self.debug:
        print >>sys.stderr, 'undefined: %r, %r' % (font, cid)
    return '(cid:%d)' % cid

这就是我以包含所有这些 (cid:%d) 的文件结尾的方式。

我对python相当陌生，我试图找出一种识别这些字符的方法，它应该是一个不？有人知道吗？

score 2 · Accepted Answer

要了解如何解释cid，您需要了解两件事：

相关字体的 Registry-Ordering-Supplement (ROS) 信息。它通常类似于“Adobe-Japan1-5”，是存储在字体中的信息属性。ROS 决定如何解释 CID。
有了 ROS 信息，选择兼容的 CMap 并通过它进行解码。您可以在http://sourceforge.net/projects/cmap.adobe/files/找到 Adobe 定义的 ROS 的 CMap 文件

有关直接从发明者那里获得的 CID 和 CMap 的更多信息，请访问http://www.adobe.com/content/dam/Adobe/en/devnet/font/pdfs/5014.CIDFont_Spec.pdf

检查将 CID 字体代码解码为等效的 ASCII 字符以获取更多信息

python - pdf2txt 的输出中的这个 (cid:51) 是什么？

编辑

1 回答 1

Related

Reference