14

有谁知道我可以在 OS X/Linux 上使用来解析 Word 文件并将内容输出为 HTML 的库?

我看过win32ole,但据我所知,它仅适用于Windows,尽管我可能是错的。

有什么建议么?

4

1 回答 1

11

Word 文档格式(暂时忽略 docx)很糟糕,并且在不断变化。恕我直言,这就是为什么有这么少(读取:零)Ruby 库来解析它们的原因。

我建议做的是使用 JRuby 和一些已建立的 Java 库来读取 doc 格式。谷歌应该帮助你:http ://schmidt.devlib.org/java/libraries-word.html 。

有一个用于读取 MIcrosoft 文件格式的 Java 项目 POI ( http://poi.apache.org/ ),它们确实有 Ruby 绑定 ( http://poi.apache.org/poi-ruby.html ) 但我我不确定这些是最新的。在他们的网站上,它说 Ruby 绑定适用于 1.8.2 ......

于 2008-12-17T22:25:36.150 回答