8

考虑到存储此类数据的字节数组的前 256 个字节,可通过 Windows DLL 访问的FindMimeFromDataUrlmon.dll方法能够确定存储在内存中的给定数据的 MIME 类型。

然而,在阅读了它的文档之后,我被引导到Windows Internet Explorer 中的 MIME 类型检测,在那里我可以找到该方法能够识别的 MIME 类型。见清单。如您所见,此方法仅限于 26 种 MIME 类型。

所以我想知道是否有人可以将我指向具有更多 MIME 类型的另一种方法,或者我可以包含我认为合适的 MIME 类型的另一种方法/类。

4

4 回答 4

21

更新:@GetoX 已采用此代码并将其包装在 .net 核心的 NuGet 包中!见下文,加油!!

所以我想知道是否有人可以将我指向具有更多 MIME 类型的另一种方法,或者我可以包含我认为合适的 MIME 类型的另一种方法/类。

我使用 Winista 和 URLMon 的混合体来检测上传文件真实格式。

Winista MIME 检测

假设有人用 jpg 扩展名重命名 exe,您仍然可以使用二进制分析确定“真实”文件格式。它不检测 swf 或 flv,但几乎可以检测所有其他众所周知的格式 + 您可以获得一个十六进制编辑器并添加更多它可以检测的文件。

文件魔术

Winista 使用 XML 文件“mime-type.xml”检测真正的 MIME 类型,该文件包含有关文件类型和用于识别内容类型的签名的信息。例如:

<!--
 !   Audio primary type
 ! -->

<mime-type name="audio/basic"
           description="uLaw/AU Audio File">
    <ext>au</ext><ext>snd</ext>
    <magic offset="0" type="byte" value="2e736e64000000"/>
</mime-type>

<mime-type name="audio/midi"
           description="Musical Instrument Digital Interface MIDI-sequention Sound">
    <ext>mid</ext><ext>midi</ext><ext>kar</ext>
    <magic offset="0" value="MThd"/>
</mime-type>

<mime-type name="audio/mpeg"
           description="MPEG Audio Stream, Layer III">
    <ext>mp3</ext><ext>mp2</ext><ext>mpga</ext>
    <magic offset="0" value="ID3"/>
</mime-type>

当 Winista 无法检测到真正的文件格式时,我求助于 URLMon 方法:

public class urlmonMimeDetect
{
    [DllImport(@"urlmon.dll", CharSet = CharSet.Auto)]
    private extern static System.UInt32 FindMimeFromData(
        System.UInt32 pBC,
        [MarshalAs(UnmanagedType.LPStr)] System.String pwzUrl,
        [MarshalAs(UnmanagedType.LPArray)] byte[] pBuffer,
        System.UInt32 cbSize,
        [MarshalAs(UnmanagedType.LPStr)] System.String pwzMimeProposed,
        System.UInt32 dwMimeFlags,
        out System.UInt32 ppwzMimeOut,
        System.UInt32 dwReserverd
    );

public string GetMimeFromFile(string filename)
{
    if (!File.Exists(filename))
        throw new FileNotFoundException(filename + " not found");

    byte[] buffer = new byte[256];
    using (FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read))
    {
        if (fs.Length >= 256)
            fs.Read(buffer, 0, 256);
        else
            fs.Read(buffer, 0, (int)fs.Length);
    }
    try
    {
        System.UInt32 mimetype;
        FindMimeFromData(0, null, buffer, 256, null, 0, out mimetype, 0);
        System.IntPtr mimeTypePtr = new IntPtr(mimetype);
        string mime = Marshal.PtrToStringUni(mimeTypePtr);
        Marshal.FreeCoTaskMem(mimeTypePtr);
        return mime;
    }
    catch (Exception e)
    {
        return "unknown/unknown";
    }
}
}

从 Winista 方法内部,我在这里求助于 URLMon:

   public MimeType GetMimeTypeFromFile(string filePath)
    {
        sbyte[] fileData = null;
        using (FileStream srcFile = new FileStream(filePath, FileMode.Open, FileAccess.Read))
        {
            byte[] data = new byte[srcFile.Length];
            srcFile.Read(data, 0, (Int32)srcFile.Length);
            fileData = Winista.Mime.SupportUtil.ToSByteArray(data);
        }

        MimeType oMimeType = GetMimeType(fileData);
        if (oMimeType != null) return oMimeType;

        //We haven't found the file using Magic (eg a text/plain file)
        //so instead use URLMon to try and get the files format
        Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect urlmonMimeDetect = new Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect();
        string urlmonMimeType = urlmonMimeDetect.GetMimeFromFile(filePath);
        if (!string.IsNullOrEmpty(urlmonMimeType))
        {
            foreach (MimeType mimeType in types)
            {
                if (mimeType.Name == urlmonMimeType)
                {
                    return mimeType;
                }
            }
        }

        return oMimeType;
    }

从 netomatix 到 Winista 实用程序的 Wayback Machine 链接。AFAIK 他们在开源 Nutch 爬虫系统中发现了一些“mime reader 实用程序类”,并且他们在 2000 年代初期进行了 C# 重写。

我已经使用 Winista 托管了我的 MimeDetect 项目,并且 URLMon 回退到这里(请使用十六进制编辑器贡献新的文件类型): https ://github.com/MeaningOfLights/MimeDetect

您也可以使用Paul Zahra 链接到的这篇文章中提到的 Registry 方法或.Net 4.5 方法,但 Winista 是最好的恕我直言。

享受知道您系统上的文件 他们声称的文件,而不是恶意软件


更新:

对于桌面应用程序,您可能会发现 WindowsAPICodePack 效果更好:

using Microsoft.WindowsAPICodePack.Shell;
using Microsoft.WindowsAPICodePack.Shell.PropertySystem;

private static string GetFilePropertyItemTypeTextValueFromShellFile(string filePathWithExtension)
{
   var shellFile = ShellFile.FromFilePath(filePathWithExtension);
   var prop = shellFile.Properties.GetProperty(PItemTypeTextCanonical);
   return prop.FormatForDisplay(PropertyDescriptionFormatOptions.None);
}
于 2013-03-24T05:40:09.433 回答
3

经过几个小时寻找弹性解决方案。我采用了@JeremyThompson 解决方案,将其适应框架 .net core/.net 4.5 并将其放入nuget package

   //init
   var mimeTypes = new MimeTypes();

   //usage by filepath
   var mimeType1 = mimeTypes.GetMimeTypeFromFile(filePath);

   //usage by bytearray
   var mimeType2 = mimeTypes.GetMimeTypeFromFile(bytes);
于 2019-12-16T22:45:55.990 回答
2

这篇 SO 帖子中有多种可能的解决方案,至少会给你一些思考的余地。

似乎唯一真正做到这一点的方法是以二进制形式读取它,然后进行比较,无论 MIME 类型是以某种方式声明的硬编码,还是您依赖机器自己可用的 MIME 类型/注册表。

于 2013-03-15T10:08:36.190 回答
2

刚刚找到FileSignatures。它实际上是一个很好的替代方案,在 Linux 目标应用程序上也能正常运行。

语境

Urlmon.dll不适合 Linux - 因此不适用于多平台应用程序。我在 Microsoft Docs 中找到了这篇文章。它引用了一个文件签名数据库,这是一个很好的文件类型参考(在我写这篇文章时是 518 个)。

再挖掘一下,我发现了这个非常好的项目:FileSignatures nuget here。它还具有很强的可扩展性,例如,您可以从 filesignatures.net 获取所需的所有类型并创建自己的类型模型。

用法

您可以检查任何定义的类型

var format = inspector.DetermineFileFormat(stream);

if(format is Pdf) {
  // Just matches Pdf
}

if(format is OfficeOpenXml) {
  // Matches Word, Excel, Powerpoint
}

if(format is Image) {
  // Matches any image format
}

或使用它带来的一些元数据,基于匹配的文件类型

var fileFormat = _fileFormatInspector.DetermineFileFormat(stream);
var mime = fileFormat?.MediaType;

可扩展性

您可以定义任意数量的继承自FileFormat并配置 aFileFormatLocator以在需要时加载它们的类型

var assembly = typeof(CustomFileFormat).GetTypeInfo().Assembly;

// Just the formats defined in the assembly containing CustomFileFormat
var customFormats = FileFormatLocator.GetFormats(assembly);

// Formats defined in the assembly and all the defaults
var allFormats = FileFormatLocator.GetFormats(assembly, true);

更多细节在项目的 Github

于 2021-03-05T21:00:37.003 回答