3

我目前正在开发一个应用程序,用于从 1950 年代用阿拉伯文书写的马来西亚杂志中提取信息。为了分析内容并找到与其他文件的链接,整个阿拉伯文集已被扫描并转换为拉丁文。

因此,我有两套 PDF,一套是阿拉伯文字的扫描文档图像,另一套是文本格式的拉丁音译。我希望能够并排比较每个 PDF。为此,我希望将两个 PDF 的卷轴锁定在一起。

此外,我希望用户能够在任一文档中选择一些文本,并将此选择反映在第二个文档中。通过这样做,选定的拉丁文本可用于查询附件内容的多个数据库。如下图所示,即使无法直接选择扫描文档中的文本,段落在每个 PDF 中的位置也大致相同(就像在镜子中一样,因为阿拉伯语是从右到左书写的)。

界面样机

我一直在寻找技术解决方案,目前我最好的方法是使用两个画布并监听选择和滚动事件以将它们反映在另一侧。我玩过pdf.js,它似乎可以帮助我显示 PDF 并同时收听由用户操作触发的事件。问题是这个库的文档非常稀缺,而且它似乎仍处于早期阶段,即使有非常频繁的更新。

您知道任何更好的解决方案可以让我轻松实现这样的系统吗?请考虑以下限制:

  • 该系统应该可供最大数量的人使用,并且能够连接到外部数据库,因此需要在线。
  • 理想情况下,它应该适用于大多数浏览器,特别是 Chrome、IE 8 和 Firefox 4,因为它们是马来西亚最常用的浏览器(来源:gs statcounter
  • 使用的称为 Jawi 的阿拉伯文字不是标准的阿拉伯文,不能提交给 OCR,因为甚至没有任何标准编码(某些字符甚至在 Unicode 中不可用)

预先感谢您的回答。

4

0 回答 0