2

我正在做一个项目,SIGGRAPH Image Wall

我的第一个挑战是弄清楚如何提取PDF 中每一页的标题,SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)。此 PDF 是每篇论文第一页的汇编。因此,每一页都有一个论文标题,与传统的学者论文略有不同。有人对此有任何想法吗?

4

1 回答 1

2

我认为您可以使用多种文本提取方法中的任何一种来完成此操作,但我会提醒您要达到 100% 的准确度会很棘手......

一些可能使用的工具:

  • pdftotextpdf2txt - 简单易用的跨平台提取实用程序。
  • PDFNet - 用于挖掘 PDF 并准确提取所需数据的强大 SDK。
  • Perl 模块:PDF::API2, CAM::PDF - 我是 Perl 人,所以我会走这条路,但我确信 Python、Ruby 等中存在类似的库。

您的源页面看起来相当一致 - 我觉得您将能够对您的内容在页面上的位置以及它的外观做出一些明智的猜测。我会试试这个:

  1. 手动检查 PDF 以确定标题字体名称和大小。
  2. 提取页面顶部的文本信息(例如顶部 150 像素)。确保提取字体信息。
  3. 这应该得到你所有的标题文本,也许还有一些作者姓名。解析这些数据(在您编写的脚本中,或在 pdftotext 等的 XML 输出文件中),只保留与您的标题字体信息匹配的单词。

如果标题字体不同,您需要猜测每个页面的标题字体是什么,并将其与作者姓名(您应该从页面顶部获得的唯一其他内容)区分开来,您可能只需比较字体即可尺寸。

于 2013-08-06T03:29:35.593 回答