我们正在抓取和下载许多公司的 PDF 文件,并试图挑选出那些是年度报告的文件。此类报告可以从大多数公司的投资者关系页面下载。
扫描 PDF 并在数据库中填充以下内容:
- 标题
- 内容(全文)
- 页数
- 字数
- 方向
- 第一行
使用这些数据,我们正在检查明显的短语,例如:
- 年度报告
- 财务报告
- 季度报告
- 中期报告
然后记录这些短语和其他短语的频率。到目前为止,我们有大约 350,000 个 PDF 文件要扫描,以及一个包含 4,000 个文档的训练集,这些文档被手动分类为报告或非报告。
我们正在尝试多种不同的方法,包括贝叶斯分类器和加权可用的不同因素。我们正在用 Ruby 构建分类器。我的问题是:如果你正在考虑这个问题,你会从哪里开始?