我需要阅读 pdf 文件并需要转换为 HTML。目前我正在使用 iTextsharp 阅读 PDF。是否有任何带有适当文档的 dll 来读取 pdf 文件。
谢谢
ITextSharp 相当不错,而且很容易实现。这是一个阅读 pdf 并将文本放入字符串的小示例,然后将其打印到 webforms 页面上的标签上:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
namespace pdfreadertest
{
public partial class _Default : System.Web.UI.Page
{
protected void Page_Load(object sender, EventArgs e)
{
GetTextFromPDFFile(@"c:\example.pdf", 1);
}
public void GetTextFromPDFFile(string pdfFile, int pageNumber)
{
// Call the reader to read the pdf file
PdfReader pdfReader = new PdfReader(pdfFile);
// Extract the text from the pdf reader and put into a string
string pdfText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber);
// Try and close the reader
try
{
pdfReader.Close();
}
catch{ }
// Put the string (pdf text) into a label to display on page
this.lblPdfText.Text = pdfText;
}
}
}
希望有帮助。
我认为 iTextSharp 是最受欢迎的库之一,尽管还有其他几个库,如 iText.Net、PDF Sharp、Sharp PDF 等谷歌它,你会发现很多。我用过 iTextSharp,我喜欢它。