我碰巧知道 Tika,它在从 word 文本提取中非常有用:
卷曲 www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
但是有没有办法用它把 Ms Word 文件转换成 XML/HTML?
我碰巧知道 Tika,它在从 word 文本提取中非常有用:
卷曲 www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
但是有没有办法用它把 Ms Word 文件转换成 XML/HTML?
是的,它涉及在您的命令中更改多达 4 个字符!
如果你跑步java -jar tika-app-1.3.jar --help
,你会得到以下开头的东西:
usage: java -jar tika-app.jar [option...] [file|port...]
Options:
-? or --help Print this usage message
-v or --verbose Print debug level messages
-V or --version Print the Apache Tika version number
-g or --gui Start the Apache Tika GUI
-s or --server Start the Apache Tika server
-f or --fork Use Fork Mode for out-of-process extraction
-x or --xml Output XHTML content (default)
-h or --html Output HTML content
-t or --text Output plain text content
-T or --text-main Output plain text content (main content only)
-m or --metadata Output only metadata
.....
从那里,您会看到,如果您将--text
选项更改为,--html
否则--xml
您将获得格式良好的 XML,而不仅仅是纯文本
尽管已经回答了这个问题,但由于 op 用 java 标签标记了问题,为了完整起见,我将添加参考以轻松查看如何在 java 中执行此操作。
Tika 的单元测试中的 TikaTest.java 超类是使用getXML 方法将 word 转换为 html 的最简单参考。遗憾的是,他们在编写单元测试时看到了这样一个 API 的用处,但选择不将其公开为一个方便的工具,迫使每个人处理处理程序等,这对于常见的用例来说是不幸的样板。