exist-db - 存在-db如何访问pdf

Question

我相信这很简单......我无法理解这个......存在数据库文档在内容提取上有点模糊...... http://exist-db.org/exist/apps/文档/内容提取。

我有一个 pdf 文件，其中包含大约 162 张高分辨率图像（pdf 很大......），我不知道如何访问可能创建的任何图像......

请不要毁了我！我刚开始建立一个数据库（在 Uni 的一个版本）我很想有一个传真版（所以一个带有图像文件的选项卡和一个带有转录文本的选项卡）

我的目标是做类似于海德堡大学对“Welsche Gast Digital”所做的事情http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image （选择的图像只是一个例子！）这个pic 单击 faksimile 时，会打开扫描，单击 Transkription 时，会打开转录文本！

我对 Xquery、Xpath 和大多数 X 相关的东西都很陌生。我有一个“工作设计”放在存在数据库中，并且正在查看 TEI 以标记转录等，我担心我将不得不在这个问题上花费相当多的时间......（这与我的工作无关对我来说，这只是为我指明正确的方向）

score 1 · Accepted Answer

恐怕简短的回答就是不要。

将 pdf 存储在您的数据库中，然后尝试从中提取图像，这是一种灾难的秘诀。相反，您应该使用源图像（不一定从 pdf 中提取），并将它们单独存储在一个集合中（例如资源/img）。这些图像文件就是文档实际讨论的二进制资源。

您可能想看看tei-publisher以创建现有的数字版本，尤其是这个演示应用程序，了解如何呈现带有转录部分文本的高分辨率传真。恐怕它比在浏览器中打开 pdf 涉及更多，但Welsche Gast Digital也是如此

exist-db - 存在-db如何访问pdf

1 回答 1

Related

Reference