您好,我想将 PDF 文件转换为文本文件。我正在将 PDF 文件转换为文本文件。但它不保留 PDF 文件中的文本格式。
请帮我。
文本文件本身不能包含格式。
您不能在纯文本文件中保留格式,因为它只包含文本。文本文件中可能有 HTML 标记,但我将其称为 HTML 文件。否则,您应该尝试将其转换为富文本格式 (RTF)、Microsoft Word、OpenOffice 或其他一些文档类型。
PDFBox 将为您提供帮助,正如 Erick Robertson 所说,它可能会丢失一些格式
请参阅PDF Text Parser: Converting PDF to Text in Java using PDFBox
这可以帮助你。
File f = new File(fileName);
if (!f.isFile()) {
return null;
}
try {
parser = new PDFParser(new FileInputStream(f));
} catch (Exception e) {
return null;
}
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
/* pdfStripper.setStartPage(2);
pdfStripper.setEndPage(3);*/
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
} catch (Exception e) {
System.out.println("An exception occured in parsing the PDF Document.");
e.printStackTrace();
try {
if (cosDoc != null) cosDoc.close();
if (pdDoc != null) pdDoc.close();
} catch (Exception e1) {
e.printStackTrace();
}
return null;
}