5

我正在寻找一种工具或一组工具来在文件格式 D 和 M 之间进行转换,其中

  • D是MSWord处理的格式,按优先顺序,docx, doc, rtf
  • M是轻量级标记,如markdown、textile、txt2tags,可以是深奥的
  • 有一种方法可以从 M 生成 html
  • 转换是双向的,既从 D 到 M,又从 M 到 D
  • utf-8 编码处理得当
  • 内容很简单,段落,一些简单的格式,如粗体和斜体,也许是列表
  • 这些工具独立于平台

到目前为止我发现了什么

  • TeX、LaTeX——太重量级了
  • docx2txt——太轻量级了,根本不支持格式化
  • html -- MSWord 生成臃肿的 html
  • 一些单向转换,例如doc 到 mediawiki

更新:

用例是技术人员和非技术人员之间的文档工作流

  • 我,技术人员以纯文本形式编辑文档,将其放入版本控制等。
  • 我将其发送给我的经理或其他非技术人员
  • 他们添加评论,使用他们的 Word 对其进行更改,然后将其发回给我
  • 我想简单地了解他们的更改,进行更改,将其放入版本控制中,而无需使用 Word
4

4 回答 4

1

我认为 Pandoc 远远超出了所有要求。

http://pandoc.org

于 2016-05-26T13:11:31.487 回答
0

Adam,我使用 docx4j 将 docx 转换为 html,在 CKEditor 中编辑 html,然后使用 docx4j 将 html 转换回 docx。我的过程对 css 做了一些假设(即它旨在处理 docx4j 的干净 html,并在 CKEditor 中进行编辑)。

你不是说有没有办法从HTML生成M?

于 2010-09-28T23:25:56.123 回答
0

这可能很难做到双向,因为您将在各种格式之间出现阻抗不匹配。

我能想到的最好的世界将是一种 Wiki / Word 混合体:也许你可以让 Google Wave 为你做这件事?

另一个可能有效的解决方案是像 Plone 这样的 CMS(他们有没有添加 WYSIWIG 功能?我在版本 1 之后不再关心)。把你的文件放在那里。让系统处理更改、注释等。您可以自动检索源(应该是 ReStructuredText),并在必要时将其提交到源控制。

于 2010-09-30T12:10:53.913 回答
0

我写的这个脚本可能会在你的工作流程中帮助你:

https://github.com/matb33/docx2md

它是一个命令行 PHP 脚本,仅适用于.docx文件。它将提取 XML,运行一些 XSL 转换,并以 Markdown 格式为您提供结果。

我鼓励您向我发送.docx无法准确转换的文件。我想让这个脚本尽可能的健壮和可靠。

于 2012-11-16T15:40:29.670 回答