我正在寻找一种将几个段落和有序/无序列表从 MS Word 文件转换为 HTML 的方法。
现在,问题是当将 Word 文件保存为“htm/html”类型的文件(我使用的是 Word 2010)时,我得到了大量各种不需要的 CSS 指令,有些是 MS 发明的,有些是有效的CSS,我不想在我的 html 代码中。此外,更有问题的是,有序/无序列表甚至没有用 LI 项编码为 OL 和 UL,而是使用疯狂的 Microsofty 编码。
例如,一个段落(在 Word 中样式为“正常”)被转换为:
<p class=MsoNormal>
<span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
bla bla </span></p>
我只是希望它清楚地是:
<p><span>bla bla</span></p>
更可怕的是,一个带有一个列表项的简单无序列表(“项目符号列表”)被转换为:
<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
<![if !supportLists]>
<span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
<span style='mso-list:Ignore'>·
<span style='font:7.0pt "Times New Roman"'>
</span></span></span><![endif]>
<span dir=LTR</span>Bla bla</p>
虽然我希望得到:
<ul><li>Bla bla</li></ul>
有任何想法吗?
非常感谢!
ps 我正在使用 Zend Studio(也许有一个内置的 eclipse/zend 专用转换器或其他东西?)
psp 我发现的用于导出为 html 的唯一 MS Word 选项位于 Options => Advanced => General => Web Options . 使用这些选项并不能解决上述任何问题。