java - 在java中识别可搜索/不可搜索的文件

Question

在我的应用程序中，我将收到一个文件。我必须检查文件是否具有可搜索的文本（文本内容）或不可搜索的文本（图像）并显示。

我不能使用文件扩展名，因为在 PDF 文件中，我们也可以有不可搜索的类型。

我需要为此的java代码。谁能帮助我。

score 0 · Accepted Answer

这个问题的一个实际解决方案是从文件内容中找出未知文件的 MIME 类型。然后，您需要构建从 MIME 类型到类的映射，以提取相应文件类型的文本。

有一些库用于执行第一部分（识别 MIME 类型），尽管这是一个启发式过程，并且可以（理论上）返回错误答案或（实际上）“未知”。以下是关于如何执行此操作的 SO 问题和其他参考的示例：

score 0 · Accepted Answer

这属于数据挖掘领域，也属于搜索引擎（Lucene）。有很多转换器（pdftotext、htmltotext、unzip 等）。那么字符编码就起作用了；UTF16-LE 每个字符使用两个字节。某些文件类型具有识别标头、魔术 cookie（JPEG、GIF、PDF）。

最好对最适合您需求的项目进行互联网研究。然后在设计了功能正常的管道之后，逐步添加功能。

如果你需要一个设计，数据挖掘的死标准，JDM 2.0 可能会提供一个 API。

2 回答 2