c# - Itextsharp - GetTextFromPage does not recognize iso-8859 characters

翻译自：https://stackoverflow.com/questions/19366757 2013-10-14T18:29:11.510

1217 次

I am using iTextSharp to extract text from PDF documents, but some text files that are encoding ISO-8859-1 are not displayed correctly.

Below is my code, if anyone can help me I will be grateful.

public string ReadPdfFile(string fileName)
{
    StringBuilder text = new StringBuilder();
    PdfReader pdfReader = null;

    try
    {
        if (File.Exists(fileName))
        {
            pdfReader = new PdfReader(fileName);
            Encoding encoding = Encoding.GetEncoding("iso8859-2");

            for (int page = 1; page <= pdfReader.NumberOfPages; page++)
            {
                string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, new LocationTextExtractionStrategy());
                currentText = encoding.GetString(ASCIIEncoding.Convert(Encoding.UTF8, encoding, Encoding.Default.GetBytes(currentText)));
                text.Append(currentText);
            }
            pdfReader.Close();
        }
        return text.ToString();
    }
    catch
    {
        return string.Empty;
    }
    finally
    {
        if (pdfReader != null) pdfReader.Close();
    }
}

c# - Itextsharp - GetTextFromPage does not recognize iso-8859 characters

0 回答 0

Related

Reference