我们的数据库中有一个 PDF 格式的二进制文件。我将其流式传输并保存为 PDF 文件,并使用两个源进行了测试,最终得到相同的结果:PdfTextExtractor 拼错了一些单词。
例如,PDF 中有一个词“已确认”。PdfTextExtractor 转换后,拼写为“已确认”。
我在调试中逐步完成该过程,它在被 PdfTextExtractor 转换后立即拼写错误,所以我确信它不是不准确的,因为我正在做一些事情。
我能做些什么来提高 PdfTextExtractor 的准确性吗?
这是我目前正在使用的代码:
var reader = new PdfReader(myBinaryPdfData.ToArray());
var output = new StringWriter();
for (var i = 1; i <= reader.NumberOfPages; i++)
{
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy()));
}
output.ToString();