1

我相信这很简单......我无法理解这个......存在数据库文档在内容提取上有点模糊...... http://exist-db.org/exist/apps/文档/内容提取

我有一个 pdf 文件,其中包含大约 162 张高分辨率图像(pdf 很大......),我不知道如何访问可能创建的任何图像......

请不要毁了我!我刚开始建立一个数据库(在 Uni 的一个版本)我很想有一个传真版(所以一个带有图像文件的选项卡和一个带有转录文本的选项卡)

我的目标是做类似于海德堡大学对“Welsche Gast Digital”所做的事情http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image (选择的图像只是一个例子!) 这个pic 单击 faksimile 时,会打开扫描,单击 Transkription 时,会打开转录文本!

我对 Xquery、Xpath 和大多数 X 相关的东西都很陌生。我有一个“工作设计”放在存在数据库中,并且正在查看 TEI 以标记转录等,我担心我将不得不在这个问题上花费相当多的时间......(这与我的工作无关对我来说,这只是为我指明正确的方向)

4

1 回答 1

1

恐怕简短的回答就是不要。

将 pdf 存储在您的数据库中,然后尝试从中提取图像,这是一种灾难的秘诀。相反,您应该使用源图像(不一定从 pdf 中提取),并将它们单独存储在一个集合中(例如资源/img)。这些图像文件就是文档实际讨论的二进制资源。

您可能想看看tei-publisher以创建现有的数字版本,尤其是这个演示应用程序,了解如何呈现带有转录部分文本的高分辨率传真。恐怕它比在浏览器中打开 pdf 涉及更多,但Welsche Gast Digital也是如此

于 2018-07-24T23:30:44.790 回答