4

我正在尝试创建一个由 linux 服务器托管的node.js Web 应用程序。该应用程序必须读取并解析Word 文档中的表格。

我环顾四周,发现Powershell可以轻松实现这一点。问题是Powershell是一种 MS 脚本语言,它的 Mac 端口(pash)非常不稳定,每当我想执行这样简单的事情时就会窒息:

$wd = New-Object -ComObject Word.Application
$wd.Visible = $true
$doc = $wd.Documents.Open($filename)
$doc.Tables | ForEach-Object {
  $_.Cell($_.Rows.Count, $_.Columns.Count).Range.Text
}

我已经研究过像Docsplit这样的其他解决方案,它太通用了(即,它将整个单词 doc 转换为纯文本,对于我的目的来说不够精细)。

有些人建议使用saaspose API,但它要花很多钱!我想我自己可以做到这一点。

想法?

4

2 回答 2

1

这是一个可以读/写 docx 文件的 python 模块:

https://github.com/mikemaccana/python-docx

于 2013-04-02T20:22:02.580 回答
0

如果您在 Linux 机器上进行部署,最好使用 Docsplit 然后解析输出文本,或者您可以尝试Apache POI

另一种选择是尝试在 Wine 上运行 MS COM API,但我不确定它是否兼容。

于 2013-04-02T18:46:36.040 回答