我有一个程序正在获取 .docx 文件并作为 .html 文件打开,但是当转换为 html 时,我得到的只是不可读的字符串。我需要这个文件的 html,因为我需要稍后解析它。当我使用下面的方法打开文件时,我得到不可读的文本,例如:úL]iN?#tBd!?^ý ?e"0©?®??AäúsIp?¸ü?D?ÂÓâ¨\Dâ>½? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
StringBuilder nHtmlText = new StringBuilder();
while (dataInput.available() != 0) {
System.out.println(dataInput.readLine());
nHtmlText.append(dataInput.readLine());
}
htmlText = nHtmlText.toString();
有没有办法获得一个干净可读的 html 文件来解析和保存它?