10

我有一个包含图像和一些文本的 mht 文件。当我用记事本++ 打开它时,我看到了 xml,然后是我认为是图像的难以辨认的文本。有人可以告诉我如何使用 java 程序从 mht 文件中提取图像和文本吗?谢谢。

4

3 回答 3

7

试试名为 ExtractMHT 的工具
/* removed dangerous link */
于 2014-05-16T15:40:54.317 回答
4

它有点旧,但在 Internet Explorer 中打开它,另存为 HTML 也可以

更新:

如果您在 IE 中打开 .mht 文件,然后将其保存,将“保存类型”设置为“网页,完成 ( .htm; .html)”,那么它也会创建“文件名.htm”文件作为“文件名_files”目录。在那个目录中会有很多 .tmp 文件。对于 MS“问题步骤记录器”的输出,其中将包括一堆名称中带有 '(1)' 的文件(因为可能有一个 ' mhtD3B8.tmp ' 文件以及一个 ' mhtD3B8(1 ).tmp '文件)。'(1)' 文件是 .jpg 格式的图像,只是带有 .tmp 扩展名。从该文件夹中搜索名称中带有“(1)”的所有文件,并将它们复制到不同的目录。

进入新目录后,打开指向那里的 cmd 窗口。要一次更改所有扩展名,请键入“ rename *.tmp *.jpg ”(不带引号)并按 Enter。瞧 - 提取所有图像文件。

至于访问文本 - 由于文件现在保存为 .htm 文件,您应该能够在 Notepad++ 中打开该文件并在那里正确解析/读取它。

希望这可以帮助!

于 2015-03-16T14:31:50.743 回答
2

有一个名为的开源perl工具unmht应该可以完成这项工作:

存档中的第一个 HTML 文件被视为主要网页,其他包含的文件用于“页面必备”,例如图像或框架。主网页被写入输出目录(默认为当前目录),必要条件为以主 HTML 文件名命名的子目录,不带扩展名,附加“_files”。所有 HTML 文件中引用必要条件的链接 URL 都被重写以指向保存的文件。

于 2015-12-17T19:38:11.767 回答