-1

我必须为搜索工具编写代码,其中第一阶段是区分文件是 excel 还是 PDF,然后执行代码的相应部分并从文件中读取数据。然后将数据用作搜索结果。对于 excel 部分,我不得不使用 SSIS 包来读取数据并将其排列在不同的电子表格中以获得结果......而对于 PDF。我仍在努力。但在每件事之前,我的代码都必须识别文件类型。

4

1 回答 1

0

文件的前几个字节是标识文件类型的“幻数”,适用于许多类型的文件。

例如 PDF 文件以%PDF, 或 0x25 0x50 0x44 0x46 开头。

Excel 工作簿的幻数显然隐藏在文件中的 512 个字节中。

有一些库 ( libmagic) 和命令行工具 ( file, mimetype) 可以为您找到文件类型,而您无需了解所有文件类型的复杂细节。

于 2013-07-01T13:32:52.643 回答