我需要任意 HTML 文件(例如,博客文章)的纯文本表示。到目前为止,这不是问题,有几十个 HTML 到 txt 转换器。但是,段落中的文本(读作“p
元素”)应该在纯文本视图中对齐(到一定数量的列),并且如果可能的话,使用连字符以提供更好的可读结果。此外,生成的文本文件必须是 UTF-8 或 UTF-16。
我可以使用 XSLT 进行简单的纯文本对话,这几乎是微不足道的。但是文本的合理性超出了它的可能性(不太正确,因为 XSLT 是图灵完备的,但足够接近现实)。
FOP和 XSL-FO 也不起作用。他们按照要求做,但是 FOP 的纯文本输出很糟糕(开发人员说,它不适合这种用途)。
我还尝试了 HTML -> XSLT -> Roff,但我坚持使用 groff,它的 Unicode 支持远非最佳。因为有像省略号(“...”)这样的字符和印刷正确的引号,所以在 XSLT 样式表中告诉 groff 几十个 Unicode 字符的转义序列是相当麻烦的。
另一种方法是转换为 TeX 并以纯文本形式输出,但我以前从未尝试过使用 (La)TeX。
也许我错过了一些非常简单的事情。有谁知道,我怎样才能实现上述目标?顺便说一句:解决方案最好在没有 root 权限的情况下使用 PHP、Python、Perl、XSLT 或在半体面的 Linux 发行版中找到的任何程序。