0

首先,我的目标不是一个具体的开发答案,而是一种开发方法。

我遇到的问题是,我有一个客户有大量的 PDF 文章,在过去的 20 年里,每年大约有 150 篇文章在 50 个 pdf 中。所有这些 PDF 都是从 Quark express 编译的,来自使用 mac 的人(如果该信息很重要)。每次创建新的 pdf 杂志时,网络开发团队都会将每篇文章复制并粘贴(!)到 Internet 上的表格(!),包括 标题、内容、关键字、参考文献、作者姓名等。一个人通常需要大约 3 天的时间才能完成这项工作。

当我在那里工作时(我现在已经不在了,那是差不多七年前的事了),我使用剪贴板监控应用程序和一些与服务器交互的简单的基于 XML 的 PHP 脚本将这个过程加快了三倍。然后,您需要做的就是选择文本,CTRL+C,选择更多文本,CTRL+C,转到应用程序 (ALT+TAB),按“下一篇文章”,然后重复此操作。但是我们,或者大部分是我,每年仍然要花费大约 50 天来处理 PDF 杂志。

现在我已经七年了,出于友好的访问原因,我即将再次与我的老老板交谈。我知道他们仍在使用我的应用程序(!)。但也许重新审视他们的问题是个好主意,看看我是否可以建议一个可以帮助他们的编码项目?

我从来没有使用过 Quark Express,我只知道它类似于 MS Word,就我对软件的了解而言。我对未加密、提取的 PDF 代码/语法不是很熟悉。

简而言之:Quark Express 是否有一些特定的编译模式,可以在 PDF 脚本中用于提取文章?有哪些“智能”工具,可以从文章内容所在的类似结构的 pdf 页面中“学习”?是否有工具,例如某种 Quark Xpress 模块,可以将文章“封装”或“标记”在一起,并带有不可见的参考标签,从而使脚本的提取更加简单?

创建这些 PDF 的人在过去 20 年里一直在做他们的工作,除了软件更新之外,他们不愿意改变他们的工作流程。为他们提供的任何其他工具都不得干扰他们的工作流程,否则他们只会拒绝它。

我不想要代码;但只是一些关于您或其他人可能对其他 PDF 提取问题所做的描述。最好的答案可能是对几种方法的描述,或者对带有案例描述的外部链接的一些引用。

4

1 回答 1

2

广泛的问题,但乍一看,我的回答是——如果你让他们去到 PDF——你已经让事情变得非常困难了。如果他们仍在使用 Quark XPress,则有更好的方法来做这种事情,并且实际上有不少出版商使用类似的方法。

1) 研究从 Quark XPress 生成 PDF 和 XML。他们不想改变他们的方式很好,但无论如何他们必须用 Quark 创建 PDF;生成 XML 也不是一个很大的附加步骤。事实上(警告 - 隶属关系!)有一些工具可以将所有这一切变成一个步骤。例如,您可以编写 AppleScript 来引导流程,但在人们单击“导出”后,像 axaio MadeToPrint 这样的东西会自动生成(正确的)PDF 和 XML 文件。

2)一旦您拥有相同内容的 PDF 和 XML,使用 PDF 进行打印(就像知道的那样),然后编写一些代码将 XML 转换为您在网站上需要的任何内容。如果编码是在网站本身上完成的,您甚至可能不需要调整来自 Quark 的 XML;只需使站点足够智能,以获取任何必要的点点滴滴。

宽泛问题的宽泛回答;希望这就是你要找的...

于 2013-01-12T10:19:25.530 回答