自从我购买了自己的 kindle4 以来,我一直在寻找可以帮助我阅读有关它的科学论文或漫画的软件。到目前为止,我的搜索已经产生了k2pdfopt的论文
和Briss的漫画——实际上只有漫画。
第一个链接,即 k2pdfopt 上的页面提到了一些非常好的软件,可以将 pdf 的某些部分裁剪为另一个。请注意,k2pdfopt 与这些 pdf 裁剪软件(包括 Briss)在不同的线路上运行。它将单词、方程式等识别为以图像形式重排以适合电子阅读器的文本块。Reflowable Document 的 Wikipedia 页面 (http://en.wikipedia.org/wiki/Reflowable_document) 提到了由 Xerox PARC 设计的实验软件,其工作方式与 k2pdfopt 类似。
因此,我的问题是,是否存在以类似方式解决问题的现有开源项目(或更多)——即将单词级别的文本识别为图像,然后使用算法对这些图像进行排版。
- k2pdfopt 生成一个 exe 文件 - 还没有用 wine 尝试过。
- 尽管该软件是高度可定制的 - 即可以向它建议字间距和行间距,但没有用户界面,并且所有页面都必须以相同的方式处理。因此,无法识别目录,例如,或适当地添加脚注 - 可能需要一些人为干预。
- 因此需要一个新项目(如果这样的项目不存在)。
- 我想使用 python 来完成这项工作,但通常的 pdf 相关模块 ReportLab 和 pyPdf 无法导入现有的 pdf 页面。有人可以帮忙搜索这样一个 python 模块吗?