我有一个保存为 .htm 网页的 Microsoft Word Doc。下面是我的代码。我的问题是如何从文档中获取文本,并将其附加到字符串中。我注意到该段落设置为标签<p class=MsoNormal>
,因此有任何建议。我要附加的字符串是 documentText
String documentText = "";
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
while (dataInput.available() != 0){
System.out.println(dataInput.readLine());
}