我正在尝试从丹麦超市阅读 Offer Avis,但没有运气。这是一个类似http://www.foetex.dk/ugenstilbud/Pages/Zmags.aspx的 flash 文件。我发现您可以将 Offers Avis 下载为 PDF,之后我尝试了几天将 pdf 阅读为有用的内容,但我并没有真正得到任何东西。
这是我的代码,我的 pdf 正在阅读 https://www.dropbox.com/s/o7uhfanu459n18f/input.pdf
public static string ReadPdfFile(string fileName)
{
StringBuilder text = new StringBuilder();
if (File.Exists(fileName))
{
PdfReader pdfReader = new PdfReader(fileName);
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
}
pdfReader.Close();
}
return text.ToString();
}
正如我所说,它并不是真的有用,因为价格并不总是与上面的产品相匹配。如果有人有任何结构化的为什么要阅读这样的pdf,请帮助我。
提前致谢。