我正在研究 pdf 扫描,我想从 PDF 中提取文本。我正在使用 pdf Multithreading.pdf进行搜索。我能够提取文本,但无法从文本中提取空格。我只得到 Tj 运算符的回调,而不是 TJ 的回调。可能是什么问题?
谢谢
我正在研究 pdf 扫描,我想从 PDF 中提取文本。我正在使用 pdf Multithreading.pdf进行搜索。我能够提取文本,但无法从文本中提取空格。我只得到 Tj 运算符的回调,而不是 TJ 的回调。可能是什么问题?
谢谢
我能够提取文本,但无法从文本中提取空格。我只得到 Tj 运算符的回调,而不是 TJ 的回调。
原因是在您的示例文档中
例如标题页的文字绘制操作
是:
BT
/F0 50 Tf
1 0 0 1 60 669.225 Tm
(\0006)Tj % T
1 0 0 1 83.527 669.225 Tm
(\000J\000T)Tj % hr
1 0 0 1 125.631 669.225 Tm
(\000G\000C\000F\000K\000P\000I)Tj % eading
1 0 0 1 273.395 669.225 Tm
(\0002)Tj % P
1 0 0 1 298.272 669.225 Tm
(\000T)Tj % r
1 0 0 1 313.599 669.225 Tm
(\000Q)Tj % o
1 0 0 1 340.076 669.225 Tm
(\000I\000T)Tj % gr
1 0 0 1 382.43 669.225 Tm
(\000C\000O\000O\000K\000P\000I)Tj % amming
0 Tc
1 0 0 1 60 609.225 Tm
(\000\))Tj % G
1 0 0 1 91.7 609.225 Tm
(\000W\000K\000F\000G)Tj % uide
ET
Tj文本绘图操作中没有空格,仅使用Tm移动绘图位置。