我正在寻找一种对主要由文本组成的扫描页面进行分类的方法。
这是我的问题的详细信息。我有大量扫描文档,需要检测这些文档中是否存在某些类型的页面。我计划将文档“爆裂”到它们的组件页面中(每个页面都是一个单独的图像)并将这些图像中的每一个分类为“A”或“B”。但我想不出最好的方法来做到这一点。
更多细节:
- 我有很多“A”和“B”图像(页面)的例子,所以我可以进行监督学习。
- 我不清楚如何从这些图像中最好地提取特征以进行训练。例如,这些功能是什么?
- 页面偶尔会轻微旋转,因此如果分类对旋转和(在较小程度上)缩放有点不敏感,那就太好了。
- 我想要一个跨平台的解决方案,最好是纯 python 或使用通用库。
- 我曾考虑过使用 OpenCV,但这似乎是一个“重量级”的解决方案。
编辑:
- “A”页和“B”页的不同之处在于,“B”页上的表格具有相同的一般结构,包括存在条形码。“A”页是自由文本。