0

我碰巧知道 Tika,它在从 word 文本提取中非常有用:

卷曲 www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

但是有没有办法用它把 Ms Word 文件转换成 XML/HTML?

4

2 回答 2

1

是的,它涉及在您的命令中更改多达 4 个字符!

如果你跑步java -jar tika-app-1.3.jar --help,你会得到以下开头的东西:

usage: java -jar tika-app.jar [option...] [file|port...]

Options:
  -?  or --help          Print this usage message
  -v  or --verbose       Print debug level messages
  -V  or --version       Print the Apache Tika version number

  -g  or --gui           Start the Apache Tika GUI
  -s  or --server        Start the Apache Tika server
  -f  or --fork          Use Fork Mode for out-of-process extraction

  -x  or --xml           Output XHTML content (default)
  -h  or --html          Output HTML content
  -t  or --text          Output plain text content
  -T  or --text-main     Output plain text content (main content only)
  -m  or --metadata      Output only metadata
.....

从那里,您会看到,如果您将--text选项更改为,--html否则--xml您将获得格式良好的 XML,而不仅仅是纯文本

于 2013-04-10T09:15:52.200 回答
1

尽管已经回答了这个问题,但由于 op 用 java 标签标记了问题,为了完整起见,我将添加参考以轻松查看如何在 java 中执行此操作。

Tika 的单元测试中的 TikaTest.java 超类是使用getXML 方法将 word 转换为 html 的最简单参考。遗憾的是,他们在编写单元测试时看到了这样一个 API 的用处,但选择不将其公开为一个方便的工具,迫使每个人处理处理程序等,这对于常见的用例来说是不幸的样板。

于 2015-12-05T17:40:19.613 回答