0

在我的应用程序中,我将收到一个文件。我必须检查文件是否具有可搜索的文本(文本内容)或不可搜索的文本(图像)并显示。

我不能使用文件扩展名,因为在 PDF 文件中,我们也可以有不可搜索的类型。

我需要为此的java代码。谁能帮助我。

4

2 回答 2

0

这个问题的一个实际解决方案是从文件内容中找出未知文件的 MIME 类型。然后,您需要构建从 MIME 类型到类的映射,以提取相应文件类型的文本。

有一些库用于执行第一部分(识别 MIME 类型),尽管这是一个启发式过程,并且可以(理论上)返回错误答案或(实际上)“未知”。以下是关于如何执行此操作的 SO 问题和其他参考的示例:

于 2012-06-09T01:20:43.950 回答
0

这属于数据挖掘领域,也属于搜索引擎(Lucene)。有很多转换器(pdftotext、htmltotext、unzip 等)。那么字符编码就起作用了;UTF16-LE 每个字符使用两个字节。某些文件类型具有识别标头、魔术 cookie(JPEG、GIF、PDF)。

最好对最适合您需求的项目进行互联网研究。然后在设计了功能正常的管道之后,逐步添加功能。

如果你需要一个设计,数据挖掘的死标准,JDM 2.0 可能会提供一个 API。

于 2012-06-09T01:39:59.580 回答