0

我需要阅读 pdf 文件并需要转换为 HTML。目前我正在使用 iTextsharp 阅读 PDF。是否有任何带有适当文档的 dll 来读取 pdf 文件

谢谢

4

2 回答 2

0

ITextSharp 相当不错,而且很容易实现。这是一个阅读 pdf 并将文本放入字符串的小示例,然后将其打印到 webforms 页面上的标签上:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace pdfreadertest
{
    public partial class _Default : System.Web.UI.Page
    {
        protected void Page_Load(object sender, EventArgs e)
        {
            GetTextFromPDFFile(@"c:\example.pdf", 1);
        }

        public void GetTextFromPDFFile(string pdfFile, int pageNumber)
        {
            // Call the reader to read the pdf file
            PdfReader pdfReader = new PdfReader(pdfFile);

            // Extract the text from the pdf reader and put into a string
            string pdfText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber);

            // Try and close the reader
            try
            {
                pdfReader.Close();
            }
            catch{ }

            // Put the string (pdf text) into a label to display on page
            this.lblPdfText.Text = pdfText;
        }
    }
}

希望有帮助。

于 2012-07-13T11:06:00.783 回答
-1

我认为 iTextSharp 是最受欢迎的库之一,尽管还有其他几个库,如 iText.Net、PDF Sharp、Sharp PDF 等谷歌它,你会发现很多。我用过 iTextSharp,我喜欢它。

于 2012-07-13T10:51:29.500 回答