我正在使用“ pdftotext -bbox file.pdf
”将pdf
文件转换为HTML
.
这是输出中的示例行:
<word xMin="351.852025" yMin="42.548936" xMax="365.689478"
yMax="47.681498">foo</word>
有没有办法获取每个单词的字体信息,例如:
- 字体系列,例如 Verdana
- 样式,即无、粗体、斜体
- 大小,例如字体大小 9
我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。