我正在构建一个文档分类器来对文档进行分类。
因此,第一步是将每个文档表示为“特征向量”以用于训练目的。
经过一番研究,我发现我可以使用 Bag of Words 方法或 N-gram 方法将文档表示为向量。
使用 OCR 检索每个文档(扫描的 pdf 和图像)中的文本,因此某些单词包含错误。而且我没有关于这些文档中使用的语言的先前知识(不能使用词干)。
据我了解,我必须使用 n-gram 方法。还是有其他方法来表示文档?
如果有人可以将我链接到 N-Gram 指南以便获得更清晰的图片并了解其工作原理,我也将不胜感激。
提前致谢