1

在使用 PdfTextExtractor.GetTextFromPage 时,我将文本提取到文本文档中,但是每个尾行之后的所有空格都丢失了。我试图用一个从 MS word 创建的简单的三行 PDF 文件来复制这个问题,但没有成功,每个 endline 都被一个额外的空格替换。

下面是PDF文件的PrtScn

PDF格式

下面是记事本显示的文字

February 04, 2013Patient:  Ima . TestD.O.B.:   6/14/1970Chart #:   2004-00001SSN:  555-55-5555Dr. :Enclosed you will find the report for Ima . Test.

以同一行结尾的单词没有与从下一行开始的单词分开。当我想解析字符串时,我认为这会导致问题。

4

1 回答 1

1

下面是notepad++显示的相同文本

February 04, 2013
Patient:  Ima . Test
D.O.B.:   6/14/1970
Chart #:   2004-00001
SSN:  555-55-5555
Dr. :
Enclosed you will find the report for Ima . Test.

我不知道记事本不识别endline,所以当我将相同的文本复制并粘贴到问题框中时,每一行都是分开的。希望这可以为遇到同样问题的人节省一点时间。

于 2013-02-06T15:58:47.687 回答