text-extraction - pdftotext 获取字体信息（字体系列、样式、大小）

问问题 2018-05-06T11:23:24.830

522 次

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

这是输出中的示例行：

<word xMin="351.852025" yMin="42.548936" xMax="365.689478"
yMax="47.681498">foo</word>

有没有办法获取每个单词的字体信息，例如：

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

0 回答 0