pdf - 从 PDF 中提取有关格式（字体大小、类型等）的文本

Question

是否可以从 PDF 文件中提取有关特定字体/字体大小/字体颜色等的文本？我更喜欢 Perl、python 或 *nix 命令行实用程序。我的目标是从 PDF 文件中提取所有标题，以便在单个 PDF 中包含一个很好的文章索引。

score 3 · Accepted Answer

您可以从 Ghostscript 的 txtwrite 设备（尝试 -dTextFormat=0 | 1 选项）以及带有 -tt 选项的 mudraw (MuPDF) 中获取文本和 /font/font 大小/位置（没有颜色，正如我所检查的那样）。然后使用 Perl 解析类似 XML 的输出。

score 3 · Accepted Answer

我有工作代码，它从 pdf 中提取具有字体大小的文本。在 PDfminer 的帮助下，我完成了这项工作。有很多pdf

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'path\whereyour pdffile'
os.chdir(path)
Extract_Data=[]
for PDF_file in os.listdir():
    if PDF_file.endswith('.pdf'):
       for page_layout in extract_pages(PDF_file):
            for element in page_layout:
                if isinstance(element, LTTextContainer):
                    for text_line in element:
                        for character in text_line:
                            if isinstance(character, LTChar):
                                Font_size=character.size
                    Extract_Data.append([Font_size,(element.get_text())])

pdf - 从 PDF 中提取有关格式（字体大小、类型等）的文本

2 回答 2

Related

Reference