(这个问题是关于数据提炼的策略和高级方法,而不是编程,所以如果它是题外话......提前抱歉,但我找不到更好的 stackexchange 社区)
因此,我们处于一个(典型)场景中,新数据由大量用户引入(自下而上的贡献),并由版主/管理员/受信任的用户定期提炼、纠正、分类和丰富(自上而下提炼)。
这种情况在网站中很常见(stackexchangetags
就是一个很好的例子)
是否有“最佳策略”来最小化工作量并最大限度地提高数据质量?
这里有些疑问:
- 强制数据通过验证过程或让它们填充系统(接受一定程度的不正确/不一致)并在出现时修复/丰富最流行的数据。
- 自上而下用尽可能多的数据预填充系统,以预测自下而上的到达。
- 帮助自下而上的条目与其他数据保持一致(自动完成和用户的意思框)