-1

使用 itextsharp 我需要在 ac# 应用程序中从 pdf 中提取文本。当我试图提取一些 pdf 文件时,一些单词会分散和重复(例如堆栈溢出 - s st ta ac ck ko ov ve er rf fl lo ow w)。有人可以建议如何使这个完美或建议我纠正这个。我附上了上述案例的示例图片。 在此处输入图像描述

4

1 回答 1

2

我可以猜测导致此问题的文本在 PDF 文件中以粗体显示吗?在 PostScript 和 PDF 中使文本看起来粗体的一种常见方法(一种非常糟糕的方法,但很好......)是两次渲染相同的字符,文本位置的平移(移位)非常轻微。

如果这确实是造成这种情况的原因,那么您唯一的解决方法可能是计算每个字符的位置并丢弃那些相等且非常接近的字符。

于 2012-11-30T15:53:33.660 回答