我惊喜地发现使用 iTextSharp 从 pdf 文件中提取文本是多么容易。通过阅读这篇文章,我可以使用以下简单代码将 pdf 文件转换为文本:
string pdfFilename = dlg.FileName;
// Show just the file name, without the path
string pdfFileNameOnly = System.IO.Path.GetFileName(pdfFilename);
lblFunnyMammalsFile.Content = pdfFileNameOnly;
string textFilename = String.Format(@"C:\Scrooge\McDuckbilledPlatypus\{0}.txt", pdfFileNameOnly);
PDFParser pdfParser = new PDFParser();
if (!pdfParser.ExtractText(pdfFilename, textFilename))
{
MessageBox.Show("there was a boo-boo");
}
问题是生成的文本文件包含这样的文本(即它没有空格):
IwaspleasantlysurprisedtofindhoweasyitistouseiTextSharptoextractthetextfromatextfile.
是否有一种“外面”的算法可以采用这样的文本并对单词中断(AKA“空格”)应该去哪里做出最好的猜测?