我使用 itextsharp 从 PDF 文件中提取文本。
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
return currentText;
使用该代码,我可以以纯文本形式获取所有信息,这很棒。但是,当我尝试处理它时,我发现我不知道特定列的开始位置和结束时间。
这是示例表示例:
提取文本后,我得到这样的东西
Name
Details
Note
MYNAME
THIS ARE THE
DETAILS
HERE YOU CAN
FIND A NOTE
如您所见,很难知道列信息从哪里开始和在哪里结束......
¿ 任何想法来识别柱分离?
非常感谢
环境
PDF 标记:没有
itextsharp 5.4.3.0
.Net 4