- 我正在从 PDF 文档中检索可读内容(即文本),其中大部分是科学期刊文章。
- 我正在使用 Poppler 文本实用程序将 PDF 转换为文本格式。
- 文本提取得很好,但不幸的是,文章的其他组成部分(例如数字表)也是如此,无法以纯文本正确呈现。
例如,我可能会在文章中间得到以下输出:
字符分布随机 Hmax
1 2 3 4
组织 c) (特征超过物种的)
一个
乙
A 0 0 0 + C
B + + + +
C + + + + A
乙 4+
H 字符分布非随机 Hobs
熵
3+ 2+ 1+
(物种的特征多样性
我的问题是:我将如何识别这种“噪音”并将其与正常的文本块区分开来?有没有现成的算法?我正在使用 Ruby,但任何语言的代码都会有所帮助。