Kiva 在http://build.kiva.org提供了一个 API
我们还偶尔会收到来自 API 的匿名(尽我们所能)数据的快照。我们现在正致力于定期更新这些快照,比如每周一次。它们总共很大,350MB 压缩,> 1GB 未压缩。但是,它们由数百个 JSON 文件组成,因此可以从 git 中受益,只需拉下更改即可。
我们想将我们的快照移动到 Git 和 Github 中,以利用它们的托管以及更快地获取快照的更新。事实上,我在这里提交了当前快照的一个提交:https ://github.com/coderintherye/kivaloans
但是,我们希望不保留 git 历史记录,因为我们不想让获取过去的历史记录变得容易,以便随着时间的推移拼凑数据。理由当然是我们有保护用户隐私的法律责任,并且我们有一个现实的期望,即无论我们如何尝试匿名数据,如果将足够多的数据放在一起,就有可能精确定位用户活动给团体或个人,例如 Netflix 比赛发生的事情:http: //www.wired.com/threatlevel/2010/03/netflix-cancels-contest/
有没有一种方法可以使用 Git 并提供数据,同时不保留历史记录?我们正在考虑的一个选项是使用 git,但使用 rebase -i 来破坏以前的提交。但是为了从 Git 中获得任何好处,我认为我们至少需要保留之前的提交,当然,任何不定期拉取的人根本不会获得太多好处,因为他们不会有旧承诺参考(或者我们认为?)
或者以这种方式试图成为拥有数据的好公民的期望是一种不合理的期望?如果是这样,我们可以完全放弃这个想法。