我找到了这个问题,但它使用命令行,我不想在命令行中使用子进程调用 Python 脚本并解析 HTML 文件以获取字体信息。
我想使用 PDFminer 作为库,我发现了这个问题,但它们只是提取纯文本,没有其他信息,如字体名称、字体大小等。
#!/usr/bin/env python
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
import pdfminer
def createPDFDoc(fpath):
fp = open(fpath, 'rb')
parser = PDFParser(fp)
document = PDFDocument(parser, password='')
# Check if the document allows text extraction. If not, abort.
if not document.is_extractable:
raise "Not extractable"
else:
return document
def createDeviceInterpreter():
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
return device, interpreter
def parse_obj(objs):
for obj in objs:
if isinstance(obj, pdfminer.layout.LTTextBox):
for o in obj._objs:
if isinstance(o,pdfminer.layout.LTTextLine):
text=o.get_text()
if text.strip():
for c in o._objs:
if isinstance(c, pdfminer.layout.LTChar):
print "fontname %s"%c.fontname
# if it's a container, recurse
elif isinstance(obj, pdfminer.layout.LTFigure):
parse_obj(obj._objs)
else:
pass
document=createPDFDoc("/tmp/simple.pdf")
device,interpreter=createDeviceInterpreter()
pages=PDFPage.create_pages(document)
interpreter.process_page(pages.next())
layout = device.get_result()
parse_obj(layout._objs)
这种方法不使用 PDFMiner,但可以解决问题。
首先,将PDF文档转换为docx。然后,您可以使用python-docx检索字体信息。这是获取所有粗体文本的示例
from docx import *
document = Document('/path/to/file.docx')
for para in document.paragraphs:
for run in para.runs:
if run.bold:
print run.text
如果你真的想使用 PDFMiner 你可以试试这个。传递“-t”会将 PDF 转换为包含所有字体信息的 HTML。
我希望这可以帮助你:)
获取字体系列:
if isinstance(c, pdfminer.layout.LTChar):
print (c.fontname)
获取字体大小:
if isinstance(c, pdfminer.layout.LTChar):
print (c.size)
获取字体位置:
if isinstance(c, pdfminer.layout.LTChar):
print (c.bbox)
获取图片信息:
if isinstance(obj, pdfminer.layout.LTImage):
outputImg = "<Image>\n"
outputImg += ("name: %s, " % obj.name)
outputImg += ("x: %f, " % obj.bbox[0])
outputImg += ("y: %f\n" % obj.bbox[1])
outputImg += ("width1: %f, " % obj.width)
outputImg += ("height1: %f, " % obj.height)
outputImg += ("width2: %f, " % obj.stream.attrs['Width'])
outputImg += ("height2: %f\n" % obj.stream.attrs['Height'])
print (outputImg)
如果您想使用 PDF 矿工库从 PDF 文件中获取字体大小或字体名称,您必须解释整个 pdf 页面。您应该决定要为哪个单词、短语获取字体大小和字体名称(因为在一个页面上您可以有多个具有不同字体大小的单词)。页面使用 PDF 挖掘器的结构:PDFPageInterpreter -> LTTextBox -> LTChar 一旦你找到了你想要获取字体大小的单词,你就调用:字体大小的 size 方法(实际上是高度)和字体的 fontname。代码应如下所示,传递 pdf 文件路径、要获取字体大小的单词和页码(在哪一页上是搜索的单词):
def get_fontsize_and_fontname_for_word(self, pdf_path, word, page_number):
resource_manager = PDFResourceManager()
layout_params = LAParams()
device = PDFPageAggregator(resource_manager, laparams=layout_params)
pdf_file = file(pdf_path, 'rb')
pdf_page_interpreter = PDFPageInterpreter(resource_manager, device)
global actual_font_size_pt, actual_font_name
for current_page_number, page in enumerate(PDFPage.get_pages(pdf_file)):
if current_page_number == int(page_number) - 1:
pdf_page_interpreter.process_page(page)
layout = device.get_result()
for textbox_element in layout:
if isinstance(textbox_element, LTTextBox):
for line in textbox_element:
word_from_textbox = line.get_text().strip()
if word in word_from_textbox:
for char in line:
if isinstance(char, LTChar):
# convert pixels to points
actual_font_size_pt = int(char.size) * 72 / 96
# remove prefixed font name, such as QTBAAA+
actual_font_name = char.fontname[7:]
pdf_file.close()
device.close()
return actual_font_size_pt, actual_font_name
您可以检查 LTChar 类支持的其他属性
完全披露,我是pdfminer.six的维护者之一。它是用于 python 3 的 pdfminer 的社区维护版本。
如今,pdfminer.six 有多个 API 可以从 PDF 中提取文本和信息。对于以编程方式提取信息,我建议使用extract_pages()
. 这允许您检查页面上的所有元素,这些元素按布局算法创建的有意义的层次结构排序。
以下示例是显示层次结构中所有元素的 Pythonic 方式。它使用pdfminer.six的示例目录中的 simple1.pdf。
from pathlib import Path
from typing import Iterable, Any
from pdfminer.high_level import extract_pages
def show_ltitem_hierarchy(o: Any, depth=0):
"""Show location and text of LTItem and all its descendants"""
if depth == 0:
print('element fontname text')
print('------------------------------ -------------------- -----')
print(
f'{get_indented_name(o, depth):<30.30s} '
f'{get_optional_fontinfo(o):<20.20s} '
f'{get_optional_text(o)}'
)
if isinstance(o, Iterable):
for i in o:
show_ltitem_hierarchy(i, depth=depth + 1)
def get_indented_name(o: Any, depth: int) -> str:
"""Indented name of class"""
return ' ' * depth + o.__class__.__name__
def get_optional_fontinfo(o: Any) -> str:
"""Font info of LTChar if available, otherwise empty string"""
if hasattr(o, 'fontname') and hasattr(o, 'size'):
return f'{o.fontname} {round(o.size)}pt'
return ''
def get_optional_text(o: Any) -> str:
"""Text of LTItem if available, otherwise empty string"""
if hasattr(o, 'get_text'):
return o.get_text().strip()
return ''
path = Path('~/Downloads/simple1.pdf').expanduser()
pages = extract_pages(path)
show_ltitem_hierarchy(pages)
输出显示层次结构中的不同元素、字体名称和大小(如果可用)以及该元素包含的文本。
element fontname text
------------------------------ -------------------- -----
generator
LTPage
LTTextBoxHorizontal Hello
LTTextLineHorizontal Hello
LTChar Helvetica 24pt H
LTChar Helvetica 24pt e
LTChar Helvetica 24pt l
LTChar Helvetica 24pt l
LTChar Helvetica 24pt o
LTChar Helvetica 24pt
LTAnno
LTTextBoxHorizontal World
LTTextLineHorizontal World
LTChar Helvetica 24pt W
LTChar Helvetica 24pt o
LTChar Helvetica 24pt r
LTChar Helvetica 24pt l
LTChar Helvetica 24pt d
LTAnno
LTTextBoxHorizontal Hello
LTTextLineHorizontal Hello
LTChar Helvetica 24pt H
LTChar Helvetica 24pt e
LTChar Helvetica 24pt l
LTChar Helvetica 24pt l
LTChar Helvetica 24pt o
LTChar Helvetica 24pt
LTAnno
LTTextBoxHorizontal World
LTTextLineHorizontal World
LTChar Helvetica 24pt W
LTChar Helvetica 24pt o
LTChar Helvetica 24pt r
LTChar Helvetica 24pt l
LTChar Helvetica 24pt d
LTAnno
LTTextBoxHorizontal H e l l o
LTTextLineHorizontal H e l l o
LTChar Helvetica 24pt H
LTAnno
LTChar Helvetica 24pt e
LTAnno
LTChar Helvetica 24pt l
LTAnno
LTChar Helvetica 24pt l
LTAnno
LTChar Helvetica 24pt o
LTAnno
LTChar Helvetica 24pt
LTAnno
LTTextBoxHorizontal W o r l d
LTTextLineHorizontal W o r l d
LTChar Helvetica 24pt W
LTAnno
LTChar Helvetica 24pt o
LTAnno
LTChar Helvetica 24pt r
LTAnno
LTChar Helvetica 24pt l
LTAnno
LTChar Helvetica 24pt d
LTAnno
LTTextBoxHorizontal H e l l o
LTTextLineHorizontal H e l l o
LTChar Helvetica 24pt H
LTAnno
LTChar Helvetica 24pt e
LTAnno
LTChar Helvetica 24pt l
LTAnno
LTChar Helvetica 24pt l
LTAnno
LTChar Helvetica 24pt o
LTAnno
LTChar Helvetica 24pt
LTAnno
LTTextBoxHorizontal W o r l d
LTTextLineHorizontal W o r l d
LTChar Helvetica 24pt W
LTAnno
LTChar Helvetica 24pt o
LTAnno
LTChar Helvetica 24pt r
LTAnno
LTChar Helvetica 24pt l
LTAnno
LTChar Helvetica 24pt d
LTAnno
看看PDFlib,它可以根据需要提取字体信息,并且有一个 Python 库,您可以在脚本中导入并使用它。
一些信息处于较低级别,在 LTChar 类中。这似乎是合乎逻辑的,因为字体大小、斜体、粗体等可以应用于单个字符。
更多信息:https ://github.com/euske/pdfminer/blob/master/pdfminer/layout.py#L222
但是我仍然对不在此类中的字体颜色感到困惑