2

GitHub 存档项目 状态

GitHub Archive 是一个记录公共 GitHub 时间线、将其存档使其易于访问以进行进一步分析的项目。

该档案也可通过Google Big Query进行查询。但是,看起来我要么遗漏了某些东西,要么只有一部分数据可用。

事实上,运行以下查询只返回1636WatchEvents(startedstopped),而Rails 存储库的帐户比14300观察者更多。

SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;

看起来最早检索到的数据大约有 2.5 个月的历史。

数据会被截断吗(这对于存档来说可能看起来很奇怪)?是否存在与使用 BigQuery 相关的限制/配额?

github存档

4

1 回答 1

7

这是正确的。该项目/爬虫于今年 3 月 11 日上线,因此当前存档从那天开始。在githubarchive.org页面上有一个关于这个的注释,但我想我应该让它更加可见和明确。

GitHub 团队有一个关于让更多历史可用的线程,但我还没有 ETA。手指交叉:-)

于 2012-05-24T19:01:57.660 回答