如何从 Adobe Distiller 工具创建的 pdf 文件中读取文本?
我目前正在使用 ABCPdf 工具,并且我有一个代码示例来读取 pdf 内容,但它只能读取由 Adobe PDF 库创建的 pdf 中的文本:
public string ExtractTextsFromAllPages(string pdfFileName)
{
var sb = new StringBuilder();
using (var doc = new Doc())
{
doc.Read(pdfFileName);
for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
{
doc.PageNumber = currentPageNumber;
sb.Append(doc.GetText("Text"));
}
}
return sb.ToString();
}
我有其他由 Adobe Distiller 创建的 pdf 文件,上面的代码不起作用;我的意思是它返回以下似乎已编码的奇怪数据:
\0\a\b\0\t\n\0\r\n\0\a\b\t\n\n\b\v\f\0\t\r\f\b\0\r\0\r\n\v\b\v\f\f\n\r\0\r\0\0\0\b\r\n\0\a\r\0\0\b\r\b\b\t\n\r\0\b\r\n\t\b\v\n\b\v\v\0\a\b\r\n\r\n\v\r\0\b\b\b\v\r\0\r\n\v\f\r\f\f\r\n !\"\"\v#\t $ %&$% $'\v\"% \0( )% ! !\"\"'*$'\r\n\t $ %&$% $'\v\"% \0( \r\n\f\f\f\f\b\f\f\f\f\a \b\b\f\f\f!\"\r\n\f\a#$\f\f\f\b\f\f\a%\a \b\b\f\a\a&\a\a' \b\a\b\r\n(\f)\f)
如何从 Adobe Distiller 工具创建的 pdf 文件中读取文本?
可以说我可以像其他 pdf 一样使用浏览器轻松打开此类 pdf 文件。
谢谢,