1

我想将 PDF 中的文件提取到 asp.net 中的文本框,我已经尝试了这里项目中的代码

我已经成功地从我的 PDF 中提取了文本,但是结果首先导出到 .txt 文件,结果没有任何行,并且单词之间没有任何空格。

如果这是 PDF 文本的示例

Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World

结果会是这样

HelloWorld Thisistheword Thisiswordtoo EndofHelloWorld

我应该怎么做才能在每个单词之间留一个空格,并在每一行中添加新行?

同样在这个http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET我看到了以下代码:

int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;

它有什么用?

编辑: 在搜索了更多内容后,我在此处的评论中找到了解决方案, 我只需将 itextsharp.dll 更新到较新的版本(我使用版本 5.4.4.0 )并添加评论中所说的功能,现在结果和我想要的一样好

4

1 回答 1

0

PDFParser 中似乎发生了某种 Trim() 函数。除此之外,在 ExtractTextFromPDFBytes 方法中,它正在检查的换行符不正确,它不应该是“TD”、“Td”:检查 iTextSharp.text.Chunk.NEWLINE

于 2013-11-15T08:17:51.607 回答