3

是否可以从 PDF 文件中提取有关特定字体/字体大小/字体颜色等的文本?我更喜欢 Perl、python 或 *nix 命令行实用程序。我的目标是从 PDF 文件中提取所有标题,以便在单个 PDF 中包含一个很好的文章索引。

4

2 回答 2

3

您可以从 Ghostscript 的 txtwrite 设备(尝试 -dTextFormat=0 | 1 选项)以及带有 -tt 选项的 mudraw (MuPDF) 中获取文本和 /font/font 大小/位置(没有颜色,正如我所检查的那样)。然后使用 Perl 解析类似 XML 的输出。

于 2013-10-16T08:38:31.607 回答
3

我有工作代码,它从 pdf 中提取具有字体大小的文本。在 PDfminer 的帮助下,我完成了这项工作。有很多pdf

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'path\whereyour pdffile'
os.chdir(path)
Extract_Data=[]
for PDF_file in os.listdir():
    if PDF_file.endswith('.pdf'):
       for page_layout in extract_pages(PDF_file):
            for element in page_layout:
                if isinstance(element, LTTextContainer):
                    for text_line in element:
                        for character in text_line:
                            if isinstance(character, LTChar):
                                Font_size=character.size
                    Extract_Data.append([Font_size,(element.get_text())])
于 2021-02-15T09:23:02.987 回答