itextsharp - 为什么来自 iTextSharp 的 GetTextFromPage 返回越来越长的字符串？

Question

我正在使用iTextSharpnuGet (5.5.8) 的最新库来解析 pdf 文件中的一些文本。我面临的问题是该GetTextFromPage方法不仅从它应该返回的页面中返回文本，它还从前一页返回文本。这是我的代码：

var url = "https://www.oslo.kommune.no/getfile.php/Innhold/Politikk%20og%20administrasjon/Etater%20og%20foretak/Utdanningsetaten/Postjournal%20Utdanningsetaten/UDE03032016.pdf";
var strategy = new SimpleTextExtractionStrategy();
using (var reader = new PdfReader(new Uri(url)))
{
    for (var page = 1; page <= reader.NumberOfPages; page++)
    {
        var textFromPage = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
        Console.WriteLine(textFromPage.Length);
    }
}

输出看起来像这样，这不是我需要的。我需要页面上实际的文本：

有任何想法吗？

score 9 · Accepted Answer

您将所有页面提供给相同的文本提取策略：

var strategy = new SimpleTextExtractionStrategy();
using (var reader = new PdfReader(new Uri(url)))
{
    for (var page = 1; page <= reader.NumberOfPages; page++)
    {
        var textFromPage = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
        ... process textFromPage ...
    }
}

由于您想自己处理每个页面的内容，因此您应该为每个页面创建一个新策略：

using (var reader = new PdfReader(new Uri(url)))
{
    for (var page = 1; page <= reader.NumberOfPages; page++)
    {
        var strategy = new SimpleTextExtractionStrategy();
        var textFromPage = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
        ... process textFromPage ...
    }
}

itextsharp - 为什么来自 iTextSharp 的 GetTextFromPage 返回越来越长的字符串？

1 回答 1

Related

Reference