知道如何获取 DVI 文件并将它们转换为 tex 吗?
7 回答
这类似于将 PDF 转换为 XML 的问题,被称为“试图将汉堡包变回奶牛”。TeX->DVI 和 XML->PDF 都会丢失文档结构及其语义方面的信息。
它需要大量的启发式方法和大型语料库来重新创建(部分)原始文档。它通常不会是 100%。文本字符串可能是可能的,向量更难。位图几乎是不可能的。
你问的是不可能的。我认为(与 PostScript 相同)即使识别 DVI 文件中的单词也可能需要启发式方法。DVI 文件描述了在纸上放置单个字母的位置,仅此而已。
您可以通过dvi2tty
或通过运行dvips
后到达中途获得ps2ascii
最佳结果。
我很确定这是不可能的。DVI 包含有关渲染页面的信息,而不是它具有哪些 tex 命令。
对于谁再次找到这个问题,或者对于所有回答的人,我找到了对我来说最好的答案:我正在寻找的是确实很难,它试图找出可以编译为给定 DVI 的原始 tex (或者 pdf ,因为我可以轻松地将 DVI 转换为 pdf)。InftyReader 做到了。它工作完美,我在上面尝试了一堆 pdf,然后将它们重新制作成 pdf,它非常完美!
阅读DVI 文件格式的描述并编写程序。您的程序的结果将不是原始文本,但它会是合适的。
呃,嗯,有点。
我认为阻力最小的路径将涉及 dvi->rtf 转换器。我发布了一个问题:Q#1859373 dvi2rtf: who can convert DVI files to RTF。在那里我发布了一个未经测试的实现,它给出了一个糟糕的解决方案,它抛弃了所有的格式。
有了这样的东西,然后你可以使用 word2007/8 和优秀的 docx2tex 实用程序将 rtf 转换为 tex。
结果会令人不快阅读,但我可以看到一些这样做的用例。