我正在尝试获取String
word 文档中包含的文本。我尝试使用Apache POI
api 的代码是:
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument document = new HWPFDocument(fis);
WordExtractor extractor = new WordExtractor(document);
String fileData = extractor.getText();
fileData
应该包含来自word文件的数据。
但是我得到了一些我想消除的无效字符。例如,word 中的以下文本:
Project Name Customer 360
Position Software Engineer
在 java 控制台中打印时出现:
Project Name [?]Customer 360[?][?]Position \t [?]Software Engineer
[?]
一个小盒子里的问号符号在哪里。当我把它贴在这里时,它没有出现,所以我只是用来[?]
表示它。
我希望输出是这样的:
Project Name \t Customer 360 \n Position \t Software Engineer
这为我提供了有关处理此文本真正需要的选项卡和新行的信息。
我知道tab
并且newline
信息在我得到的时候就在那里\t
,\n
在某些地方,但在某些地方却不见了。