java - Java 通过读取前几个字节来读取实际文件类型（取证）

Question

你好，我需要一种方法来使用 Java 读取任何文件的前四个字节。为什么是前四个字节？因为它是实际文件类型的取证指纹（文件扩展名不可靠，因为它可能被伪造）

http://en.wikipedia.org/wiki/File_carving

现在，以这种方式读取文件（下面是 Java 代码）将读取文件“内容”，我认为它会跳过文件头信息......？我无法获得幻数（前四个字节），因此无法识别/确认给定样本的真实文件类型。

byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) { 
    // do something 
}
is.close();

读取文件的前 4 个字节

请给点建议？

score 3 · Accepted Answer

正如空白所建议的那样，https://tika.apache.org

这是代码——在这个例子中，“test3_iamexe.txt”是一个可执行文件，文件扩展名被攻击者重命名为“ txt ”。

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;

public class TestTika {

    public static void main(String[] args) {
        File file = null;
    InputStream stream = null;
        String contentType = null;

        try
        {
            file = new File("C:\\tmp\\test3_iamexe.txt");
            stream = new FileInputStream(file);

            AutoDetectParser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();

            try {
                // This step here is a little expensive
                parser.parse(stream, handler, metadata);
            } finally {
                stream.close();
            }

            // metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
            contentType = metadata.get("Content-Type");

        } catch(...)
        {
            // handle it
        }

        return;
    }
}

score 2 · Accepted Answer

我认为你可以使用：

IOUtils.toByteArray(InputStream is)

请参见此处：IOUtils.toByteArray 将您的 InputStream 转换为 byteArray，然后获取前 4 个字节。

score 1 · Accepted Answer

为此使用 java.nio.file API；具体来说，编写你自己的FileTypeDetector.

我恰好在我的一个项目中这样做：

https://github.com/fge/java7-fs-more/tree/topic/filetypedetector

有了这个，我可以使用Files.probeContentType()文件的确切类型并将其作为 MIME 字符串返回。

请参阅测试文件。

现在，它是如何工作的：

您编写自己的 a 实现FileTypeDetector（这里是检测 PNG 文件的示例）；
null如果检测器无法确定类型，则让它返回；
META-INF/services/java.nio.file.spi.FileTypeDetector您在（请参阅此处）中注册实现；
测试它...
并使用Files.probeContentType().

java - Java 通过读取前几个字节来读取实际文件类型（取证）

3 回答 3

Related

Reference