c# - 识别 PDF 文本提取中的列分隔 - itextsharp

翻译自：https://stackoverflow.com/questions/18703167 2013-09-09T16:51:51.100

1444 次

我使用 itextsharp 从 PDF 文件中提取文本。

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber, strategy);

currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
return currentText;

使用该代码，我可以以纯文本形式获取所有信息，这很棒。但是，当我尝试处理它时，我发现我不知道特定列的开始位置和结束时间。

这是示例表示例：

字段可以是多行的

提取文本后，我得到这样的东西

Name
Details
Note
MYNAME
THIS ARE THE 
DETAILS
HERE YOU CAN
FIND A NOTE

如您所见，很难知道列信息从哪里开始和在哪里结束......

¿ 任何想法来识别柱分离？

非常感谢

环境

PDF 标记：没有
itextsharp 5.4.3.0
.Net 4

c# - 识别 PDF 文本提取中的列分隔 - itextsharp

0 回答 0

Related

Reference