6

内容管理系统有一个约束,要求存储所有具有特定扩展名的word文档(不同于DOC或DOCX)。但是,当向用户输出文档时,我们需要知道它是 DOC 还是 DOCX 文件,以便提供正确的 MIME 类型。

那么,有没有办法通过其内容以编程方式找出文档是 DOC 还是 DOCX?

4

2 回答 2

11

是 ForensicsWiki 的链接,其中详细介绍了许多不同的文件类型。它描述了 DOC 和 DOCX 文件的标题,因此您应该能够解析文件并确定它们的类型。

查看链接,.doc 文件是 OLE 复合文件,该文件应具有以下二进制标头:

d0 cf 11 e0 a1 b1 1a e1

相反,.docx 文件将具有二进制签名:

50 4b
于 2010-06-11T14:24:04.310 回答
9

DOCX 文件为 ZIP 格式,其中前两个字节是字母PK(以 ZIP 的创建者 Phil Katz 命名)。

于 2010-06-11T14:27:13.157 回答