Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我必须为搜索工具编写代码,其中第一阶段是区分文件是 excel 还是 PDF,然后执行代码的相应部分并从文件中读取数据。然后将数据用作搜索结果。对于 excel 部分,我不得不使用 SSIS 包来读取数据并将其排列在不同的电子表格中以获得结果......而对于 PDF。我仍在努力。但在每件事之前,我的代码都必须识别文件类型。
文件的前几个字节是标识文件类型的“幻数”,适用于许多类型的文件。
例如 PDF 文件以%PDF, 或 0x25 0x50 0x44 0x46 开头。
%PDF
Excel 工作簿的幻数显然隐藏在文件中的 512 个字节中。
有一些库 ( libmagic) 和命令行工具 ( file, mimetype) 可以为您找到文件类型,而您无需了解所有文件类型的复杂细节。
libmagic
file
mimetype