我想将 PDF 中的文件提取到 asp.net 中的文本框,我已经尝试了这里项目中的代码
我已经成功地从我的 PDF 中提取了文本,但是结果首先导出到 .txt 文件,结果没有任何行,并且单词之间没有任何空格。
如果这是 PDF 文本的示例
Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World
结果会是这样
HelloWorld Thisistheword Thisiswordtoo EndofHelloWorld
我应该怎么做才能在每个单词之间留一个空格,并在每一行中添加新行?
同样在这个http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET我看到了以下代码:
int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;
它有什么用?
编辑: 在搜索了更多内容后,我在此处的评论中找到了解决方案, 我只需将 itextsharp.dll 更新到较新的版本(我使用版本 5.4.4.0 )并添加评论中所说的功能,现在结果和我想要的一样好