0

我正在研究 pdf 扫描,我想从 PDF 中提取文本。我正在使用 pdf Multithreading.pdf进行搜索。我能够提取文本,但无法从文本中提取空格。我只得到 Tj 运算符的回调,而不是 TJ 的回调。可能是什么问题?

谢谢

4

1 回答 1

3

我能够提取文本,但无法从文本中提取空格。我只得到 Tj 运算符的回调,而不是 TJ 的回调。

原因是在您的示例文档中

  1. 文本绘制操作中不使用空格,而是使用Tm操作更改文本绘制位置;和
  2. 仅使用Tj文本绘制操作,不使用TJ操作。

例如标题页的文字绘制操作

标题页上的标题

是:

BT
/F0 50 Tf
1 0 0 1 60 669.225 Tm
(\0006)Tj                                    %  T
1 0 0 1 83.527 669.225 Tm
(\000J\000T)Tj                               %  hr
1 0 0 1 125.631 669.225 Tm
(\000G\000C\000F\000K\000P\000I)Tj           %  eading
1 0 0 1 273.395 669.225 Tm
(\0002)Tj                                    %  P
1 0 0 1 298.272 669.225 Tm
(\000T)Tj                                    %  r
1 0 0 1 313.599 669.225 Tm
(\000Q)Tj                                    %  o
1 0 0 1 340.076 669.225 Tm
(\000I\000T)Tj                               %  gr
1 0 0 1 382.43 669.225 Tm
(\000C\000O\000O\000K\000P\000I)Tj           %  amming
0 Tc
1 0 0 1 60 609.225 Tm
(\000\))Tj                                   %  G
1 0 0 1 91.7 609.225 Tm
(\000W\000K\000F\000G)Tj                     %  uide
ET  

Tj文本绘图操作中没有空格,仅使用Tm移动绘图位置。

于 2014-11-20T14:18:12.630 回答