我正在尝试参加 Github 数据挑战赛,我正在尝试分析一组 PushEvent,但我得到了一些奇怪的(?)结果。
users = Hash.new(0)
(0..23).each do |hour|
gz = open("http://data.githubarchive.org/2013-04-01-#{hour}.json.gz")
js = Zlib::GzipReader.new(gz).read
Yajl::Parser.parse(js) do |event|
if event["type"] == "PushEvent" && event["actor_attributes"] && event["actor_attributes"]["login"]
users[event["actor_attributes"]["login"]] += 1
end
end
end
该脚本可以正常工作,但是当我通过以下方式查看一个人所做的最多提交时
users.values.max
我看到有人在一天内提交了超过 7k 次提交。当我通过并打印出来时
event["payload"]["shas"]
所有打印结果基本相同:
585a2f02f36da9ee0625a42aa2d5e98836c8a2de
danil@orionet.ru
Notes added by 'git notes add'
Jenkins
true
我假设与 PushEvent 关联的提交消息是“由 'git notes add' 添加的注释”,所以这看起来对吗?还是我在这里误读了一些数据?