我的目标是给定一组文档(主要是金融领域),我们需要识别其中的特定部分,例如公司名称或文档类型等。
假设培训是在 100 份文件上完成的。显然,我会有一个倾斜的类分布(None 在大约 99.9% 的示例中占主导地位)。我计划使用 CRF(Sklearn 上的 CRFsuite)并阅读了必要的文献。我需要一些关于以下方面的建议:
数据集是否足以训练 CRF?考虑到每个文档可以分成大约 100 个标记(每个标记是一个训练实例),我们总共会得到 10000 个实例。
- 训练 CRF 的数据集是否会过于倾斜?例如:对于 100 个文档,我将有大约 400 个给定类的实例和大约 8000 个无实例