2009 年 9 月 28 日,Apache POI 项目发布了 3.5 版,正式支持 Office 2007 中引入的 OOXML 格式,如 DOCX 和 XLSX。
请提供一个代码示例,用于以纯文本格式提取 DOCX 文件的内容,忽略任何样式或格式。
我问这个是因为我找不到任何涵盖新 OOXML 支持的 Apache POI 示例。
2009 年 9 月 28 日,Apache POI 项目发布了 3.5 版,正式支持 Office 2007 中引入的 OOXML 格式,如 DOCX 和 XLSX。
请提供一个代码示例,用于以纯文本格式提取 DOCX 文件的内容,忽略任何样式或格式。
我问这个是因为我找不到任何涵盖新 OOXML 支持的 Apache POI 示例。
这对我有用。确保添加所需的 jars(升级 xmlbeans 等)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
这个比较通用
POITextExtractor poitex = ExtractorFactory.createExtractor(in);
返回 poitex.getText();