向我的网站发送内容的人使用 Word,因此我得到了很多 Word 文档以转换为 HTML。我只想保留基本格式 - 标题、列表和强调 - 没有图像。
当我用 Libre Office “另存为 HTML” 转换它们时,生成的文件很大,例如,112K 的 doc 文件变成了 450K 的 HTML,其中大部分是无用的 FONT 和 SPAN 标签(出于某种原因,每个标点符号都被括起来在它自己的范围内!)。
我尝试了这个脚本:http ://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708基于 tidy 和 sed,并且它减小了大小到大约 150K,但是仍然有很多无用的 SPAN。
我试图复制并粘贴到 Kompozer——一个 HTML 编辑器,然后另存为 HTML;但它将我所有的非拉丁(希伯来)字母转换为诸如“ְ”之类的实体,从而将大小增加到 750K!
我尝试了docvert:https ://github.com/holloway/docvert/issues/6 ,但发现它需要一个python库,它需要另一个库等,这似乎是一条无穷无尽的依赖之路......
有没有一种简单的方法可以从 Office 文档创建干净的 HTML?