0

我们的项目涉及解析具有结构化内容的文档,用户必须上传传入文档的模式。到目前为止,我们只处理了 XML,所以这很好。但是现在对 xls(x)、doc(x) 和 pdf 的要求已经到来。

这些文档类型是否有模式定义?我可以确定它可能不适用于 pdf,但希望可能有某种方法可以将这些用于其他类型。

4

1 回答 1

1

MSDN 有 Microsoft 格式的文档

PDF 是一种基于 PostScript 的页面描述语言,因此没有使文档内容具有语义意义的架构。

于 2012-12-13T05:32:04.197 回答