我想以PDF
编程方式使用 C# 为大学项目提取文档中的表格。我很熟悉itextsharp
。
有没有办法可以提取表格
itextsharp
?我可以为此目的使用任何其他免费库吗?
我可以将其转换
PDF
为 XML/HTML 以提取<table>
标签吗?如果可以,是否有一个免费的库可以用于PDF
HTML 转换?或者
请给我一个合适的解决方案。
我想以PDF
编程方式使用 C# 为大学项目提取文档中的表格。我很熟悉itextsharp
。
有没有办法可以提取表格itextsharp
?
我可以为此目的使用任何其他免费库吗?
我可以将其转换PDF
为 XML/HTML 以提取<table>
标签吗?如果可以,是否有一个免费的库可以用于PDF
HTML 转换?
或者
请给我一个合适的解决方案。
你能尝试这样的事情,并从我从 VB.Net 转换到 C# equiv 的这个例子中扩展你需要的东西吗
public static string GetTextFromPDF(string PdfFileName)
{
iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
dynamic sOut = string.Empty;
for (i = 1; i <= pdfReader.NumberOfPages; i++) {
iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
}
return sOut;
}