我们目前正在使用 XSL-FO 转换生成所有官方文档,使用 .xml 文件作为输入并生成 .pdf 文件,并且这些 .xml 文件中的所有内容基本上都是纯文本或 xhtml。这非常适合日常用例,但我们的一些用户引用了我们的 XSL-Fo 转换器(天线屋)无法原生处理的 Microsoft Excel 文件(而且,afaik,也没有其他人真正做到这一点)。
因此,作为中间的短期解决方案,我们所做或正在做的事情是,我们从用户定义的打印区域创建图像,并将这些图像嵌入到 .pdf 文件中。
然而,由于这些图像显然不是“可搜索”的内容,我们正在寻找 OCR 对这些 .pdf 等进行 OCR 的后处理步骤,但在我看来,这一切都深入到了解决方法的漏洞中。
我有将这些 .xls 文件转换为 SpreadsheetML 的想法,并用我们的 xsl-fo 样式表覆盖它,但是看着电子表格的规范,我也有点放弃了这个希望.. 至少没有在实施过程中投入几十个人工月。
那么,来回答我的实际问题,在 xsl-fo 驱动的文档生成中,您将如何处理 Microsoft Excel 文件?
干杯和感谢,-J