首先,我的目标不是一个具体的开发答案,而是一种开发方法。
我遇到的问题是,我有一个客户有大量的 PDF 文章,在过去的 20 年里,每年大约有 150 篇文章在 50 个 pdf 中。所有这些 PDF 都是从 Quark express 编译的,来自使用 mac 的人(如果该信息很重要)。每次创建新的 pdf 杂志时,网络开发团队都会将每篇文章复制并粘贴(!)到 Internet 上的表格(!),包括 标题、内容、关键字、参考文献、作者姓名等。一个人通常需要大约 3 天的时间才能完成这项工作。
当我在那里工作时(我现在已经不在了,那是差不多七年前的事了),我使用剪贴板监控应用程序和一些与服务器交互的简单的基于 XML 的 PHP 脚本将这个过程加快了三倍。然后,您需要做的就是选择文本,CTRL+C,选择更多文本,CTRL+C,转到应用程序 (ALT+TAB),按“下一篇文章”,然后重复此操作。但是我们,或者大部分是我,每年仍然要花费大约 50 天来处理 PDF 杂志。
现在我已经七年了,出于友好的访问原因,我即将再次与我的老老板交谈。我知道他们仍在使用我的应用程序(!)。但也许重新审视他们的问题是个好主意,看看我是否可以建议一个可以帮助他们的编码项目?
我从来没有使用过 Quark Express,我只知道它类似于 MS Word,就我对软件的了解而言。我对未加密、提取的 PDF 代码/语法不是很熟悉。
简而言之:Quark Express 是否有一些特定的编译模式,可以在 PDF 脚本中用于提取文章?有哪些“智能”工具,可以从文章内容所在的类似结构的 pdf 页面中“学习”?是否有工具,例如某种 Quark Xpress 模块,可以将文章“封装”或“标记”在一起,并带有不可见的参考标签,从而使脚本的提取更加简单?
创建这些 PDF 的人在过去 20 年里一直在做他们的工作,除了软件更新之外,他们不愿意改变他们的工作流程。为他们提供的任何其他工具都不得干扰他们的工作流程,否则他们只会拒绝它。
我不想要代码;但只是一些关于您或其他人可能对其他 PDF 提取问题所做的描述。最好的答案可能是对几种方法的描述,或者对带有案例描述的外部链接的一些引用。