5

我正在寻找一种将几个段落和有序/无序列表从 MS Word 文件转换为 HTML 的方法。

现在,问题是当将 Word 文件保存为“htm/html”类型的文件(我使用的是 Word 2010)时,我得到了大量各种不需要的 CSS 指令,有些是 MS 发明的,有些是有效的CSS,我不想在我的 html 代码中。此外,更有问题的是,有序/无序列表甚至没有用 LI 项编码为 OL 和 UL,而是使用疯狂的 Microsofty 编码。

例如,一个段落(在 Word 中样式为“正常”)被转换为:

<p class=MsoNormal>
 <span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
  bla bla </span></p>

我只是希望它清楚地是:

<p><span>bla bla</span></p>  

更可怕的是,一个带有一个列表项的简单无序列表(“项目符号列表”)被转换为:

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
 <![if !supportLists]>
  <span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
   <span style='mso-list:Ignore'>·
    <span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

    </span></span></span><![endif]>
 <span dir=LTR</span>Bla bla</p>

虽然我希望得到:

<ul><li>Bla bla</li></ul>

有任何想法吗?

非常感谢!

ps 我正在使用 Zend Studio(也许有一个内置的 eclipse/zend 专用转换器或其他东西?)
psp 我发现的用于导出为 html 的唯一 MS Word 选项位于 Options => Advanced => General => Web Options . 使用这些选项并不能解决上述任何问题。

4

1 回答 1

7

好的,找到了一个奇怪但有效的解决方案:

使用http://htmleditor.in/index.html和“从 Word 粘贴”选项,使用(讽刺的是!)Internet Explorer(用 IE 9 测试)执行此操作。

原因是,当我使用 Chrome 来完成这项工作时,在按下“从 Word 粘贴”时,会弹出一个html div 类型的弹出窗口,询问我是否允许直接访问我的剪贴板数据,并在使用 ctrl-v 粘贴文本时,如需要,结果是缺少项目符号(项目符号项被转换为段落)。

相反,当我使用 IE 9 时,弹出的不是 div 类型,而是IE 系统类型的弹出窗口,并且粘贴在那里会保留项目符号...

这里具有讽刺意味的是,为了解决一个从微软开始的问题,我使用了另一个微软产品,可能是因为它的 html 兼容性很差,这正是我想要的......哈哈。

于 2013-07-24T21:20:13.547 回答