我们正在开发一种文档搜索引擎——主要关注用户提交的 MS Word 文档的索引。
我们注意到,存在关键字填充滥用。
我们确定了两种主要的滥用行为:
- 一遍又一遍地重复同一个词
- 大量不相关的术语添加到文档中
通过添加与文档背景颜色相同的字体颜色的文本,或者将字体大小设置为 1 像素,这两种形式的滥用都被启用。
虽然确定背景颜色是否与文本颜色相同,但考虑到 MS 单词布局的复杂性,这很棘手 - 字体大小也是如此 - 因为任何截断似乎都可能是任意的 - 如果我们可能会意外删除有效文本设置一个过大的截止值。
我的问题是 - 是否有任何标准化的预处理或统计分析技术可以用来减少这种关键字填充的影响?
任何指导将不胜感激!