0

我正在使用谷歌文档,我们使用的一些模板是使用 MS-Office 创建的。
生成的 HTML 又胖又丑,而且 google 上每个文档 500KB 的限制使得一些清理工作是强制性的。我能够找到多余的“样式”属性并将它们移动到某个 CSS 类,并将最多余的类名称重命名为较短的名称,这使我节省了大约 50% 的原始大小。
您是否知道一些现有的工具/脚本/lib 可以为我完成这项痛苦的工作,或者至少帮助我编写这个神奇的工具?

提前致谢 !

编辑:我尝试了 tidy、demronizer 和“手动重写”:
- 输入:140Kb
- Tidy'ed: 110Kb
- Demoronized:135Kb

所以我最喜欢的答案是“重写它!”

谢谢 !

4

4 回答 4

4

MS-Office 制作蹩脚的 HTML,期间。您最好花时间从原始文本中重建 HTML,而不是试图穿过那个雷区。

我制作了一些宏,它们在 Word 上执行一些搜索/替换功能,以执行基本的操作,例如<p>在段落周围包装标签之类的东西,然后从头开始重新标记整个内容。

于 2009-01-19T16:49:08.897 回答
3

您可以尝试tidy它会清理很多东西。

于 2009-01-19T16:45:04.800 回答
0

在不评论它的名字的情况下,我可以提到demoronizer,作者将其描述为:

...一个可从该站点下载的 Perl 程序,它纠正了由 Microsoft 应用程序生成或编辑的 HTML 中的许多错误和不兼容性。

YMMV。

于 2009-01-20T00:53:32.677 回答
0

我现在最喜欢的实用程序之一实际上是 Windows Live Writer - 它可以很好地从 Word doc 文件中清除垃圾。有些人可能不同意,但我经常使用它!

于 2009-09-08T18:48:51.647 回答