带有嵌入图像的 WordML (2003) 文件在标签中包含 base64 编码的图像,<w:binData>
稍后在<v:shape>
标签中引用:
<w:binData w:name="wordml://08000001.jpg">
// encoded data //
</w:binData>
<v:shape id="_x0000_i1026" type="#_x0000_t75">
<v:imagedata src="img/08000001.jpg" />
</v:shape>
我找不到任何 XSLT 或通用编程语言脚本可以将这个带有嵌入图像的 Word XML 文件转换为带有链接图像的文件 - 将 WordML 嵌入图像数据提取到外部文件并引用它,即将编码数据提取到images/08000001.jpg
,删除内联编码图像(<w:binData>
标签)并引用它:
<v:shape id="_x0000_i1026" type="#_x0000_t75">
<v:imagedata src="images/08000001.jpg" />
</v:shape>
例如,WordML2LaTeX可以转换为 LaTeX,但它会丢失所有嵌入的图像,因为它需要链接所有图像。或保留嵌入图像的
MS/RenderX WordML2FO