我正在做一个项目,SIGGRAPH Image Wall。
我的第一个挑战是弄清楚如何提取PDF 中每一页的标题,SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)。此 PDF 是每篇论文第一页的汇编。因此,每一页都有一个论文标题,与传统的学者论文略有不同。有人对此有任何想法吗?
我正在做一个项目,SIGGRAPH Image Wall。
我的第一个挑战是弄清楚如何提取PDF 中每一页的标题,SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)。此 PDF 是每篇论文第一页的汇编。因此,每一页都有一个论文标题,与传统的学者论文略有不同。有人对此有任何想法吗?
我认为您可以使用多种文本提取方法中的任何一种来完成此操作,但我会提醒您要达到 100% 的准确度会很棘手......
一些可能使用的工具:
您的源页面看起来相当一致 - 我觉得您将能够对您的内容在页面上的位置以及它的外观做出一些明智的猜测。我会试试这个:
如果标题字体不同,您需要猜测每个页面的标题字体是什么,并将其与作者姓名(您应该从页面顶部获得的唯一其他内容)区分开来,您可能只需比较字体即可尺寸。