我有一个asp.net Core 2.0 C#
应用程序可以读取/解析 PDF 文件并获取文本。在此我想读取具有特定标签名称的特定值。您可以看到下图我想获取数字的值171857
并将其Invoice
存储在数据库中。
我尝试使用下面的代码来阅读 pdf iTextSharp
。
using (PdfReader reader = new PdfReader(fileName))
{
StringBuilder sb = new StringBuilder();
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
for (int page = 0; page < reader.NumberOfPages; page++)
{
string text = PdfTextExtractor.GetTextFromPage(reader, page + 1, strategy);
if (!string.IsNullOrWhiteSpace(text))
{
sb.Append(Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))));
}
}
var pdfText = sb.ToString();
}
在pdfText
变量中,我将从 pdf 中获取所有文本内容,但这似乎不是获取发票编号的正确方法。有没有其他方法可以通过它的标签名称从 pdf 中读取特定内容,就像我们将提供标签名称一样Invoice
,它将返回值171857
作为其他 3rd 方 pdf 阅读器库的示例?
任何帮助或建议将不胜感激。
谢谢