在我的 c# 代码中,我从 pdf 中提取文本,我有两种方法可以做到这一点。但是,一种方法适用于一种类型的 pdf 文档,另一种方法适用于另一种类型的 pdf 文档。
当方法 1 失败时,我得到文本但没有任何空格,当方法 2 失败时,我只得到 \r\n。
方法 1(来自http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET的类)
PDFParser pdf_parser = new PDFParser();
currentText = pdf_parser.ExtractTextFromPDFBytes(pdfReader.GetPageContent(page)) + " ";
方法二
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
currentText = output.ToString();
有没有办法结合这两个功能,所以它总是有效的?