mhtml - 从 mht 文件中提取图像和文本

Question

我有一个包含图像和一些文本的 mht 文件。当我用记事本++ 打开它时，我看到了 xml，然后是我认为是图像的难以辨认的文本。有人可以告诉我如何使用 java 程序从 mht 文件中提取图像和文本吗？谢谢。

score 7 · Accepted Answer

7

试试名为 ExtractMHT 的工具

/* removed dangerous link */

于 2014-05-16T15:40:54.317 回答

score 4 · Accepted Answer

它有点旧，但在 Internet Explorer 中打开它，另存为 HTML 也可以

更新：

如果您在 IE 中打开 .mht 文件，然后将其保存，将“保存类型”设置为“网页，完成 ( .htm; .html)”，那么它也会创建“文件名.htm”文件作为“文件名_files”目录。在那个目录中会有很多 .tmp 文件。对于 MS“问题步骤记录器”的输出，其中将包括一堆名称中带有 '(1)' 的文件（因为可能有一个 ' mhtD3B8.tmp ' 文件以及一个 ' mhtD3B8(1 ).tmp '文件)。'(1)' 文件是 .jpg 格式的图像，只是带有 .tmp 扩展名。从该文件夹中搜索名称中带有“(1)”的所有文件，并将它们复制到不同的目录。

进入新目录后，打开指向那里的 cmd 窗口。要一次更改所有扩展名，请键入“ rename *.tmp *.jpg ”（不带引号）并按 Enter。瞧 - 提取所有图像文件。

至于访问文本 - 由于文件现在保存为 .htm 文件，您应该能够在 Notepad++ 中打开该文件并在那里正确解析/读取它。

希望这可以帮助！

score 2 · Accepted Answer

有一个名为的开源perl工具unmht应该可以完成这项工作：

存档中的第一个 HTML 文件被视为主要网页，其他包含的文件用于“页面必备”，例如图像或框架。主网页被写入输出目录（默认为当前目录），必要条件为以主 HTML 文件名命名的子目录，不带扩展名，附加“_files”。所有 HTML 文件中引用必要条件的链接 URL 都被重写以指向保存的文件。

mhtml - 从 mht 文件中提取图像和文本

3 回答 3

Related

Reference