0

我有一个保存为 .htm 网页的 Microsoft Word Doc。下面是我的代码。我的问题是如何从文档中获取文本,并将其附加到字符串中。我注意到该段落设置为标签<p class=MsoNormal>,因此有任何建议。我要附加的字符串是 documentText

    String documentText = "";
    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    while (dataInput.available() != 0){
        System.out.println(dataInput.readLine());
    }
4

2 回答 2

2

使用 HTML Parser 库,例如HTML Parser

于 2012-10-15T15:57:52.697 回答
2

看看诸如HTML ParserJericho HTML Parser之类的库,或者使用这个答案中建议的原生HTMLEditorKit.Parser + HTMLEditorKit.ParserCallback方法。

于 2012-10-15T15:58:40.537 回答