我注意到,当您将 word 文档剪切并粘贴到 htmt 文档中(特别是contenteditable
div 中)时,它包含大量元数据。我感兴趣的是一个 JavaScript 函数,它可以将此文本分页到与 word 文档中的“页面”一样多的 div 中。
如果您不熟悉,这里是查看源代码时 word 文档的缩略版本:
<div contenteditable="true" >
<!--[if gte mso 9]><xml>
<o:OfficeDocumentSettings>
<o:AllowPNG/>
</o:OfficeDocumentSettings>
</xml><![endif]-->
<!--lots more junk until get to actual content which is here:-->
<p class="Default">
<b><span style="font-size:14.0pt;font-family:Arial;color:windowtext">
I am the actual title of this work. <o:p></o:p></span>
</b>
</p>