c# - ITextsharp PDFParser将文本提取到文本框

Question

我想将 PDF 中的文件提取到 asp.net 中的文本框，我已经尝试了这里项目中的代码

我已经成功地从我的 PDF 中提取了文本，但是结果首先导出到 .txt 文件，结果没有任何行，并且单词之间没有任何空格。

如果这是 PDF 文本的示例

Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World

结果会是这样

HelloWorld Thisistheword Thisiswordtoo EndofHelloWorld

我应该怎么做才能在每个单词之间留一个空格，并在每一行中添加新行？

int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;

它有什么用？

编辑： 在搜索了更多内容后，我在此处的评论中找到了解决方案，我只需将 itextsharp.dll 更新到较新的版本（我使用版本 5.4.4.0 ）并添加评论中所说的功能，现在结果和我想要的一样好

score 0 · Accepted Answer

PDFParser 中似乎发生了某种 Trim() 函数。除此之外，在 ExtractTextFromPDFBytes 方法中，它正在检查的换行符不正确，它不应该是“TD”、“Td”：检查 iTextSharp.text.Chunk.NEWLINE

1 回答 1