我想在 github 存档时间线数据集上使用 Google Big Query 检索有关存储库的最新信息。
我试图加入 max(created_at) 但我得到的信息非常不完整。这是 rails repo 的查询:
SELECT *
FROM [githubarchive:github.timeline] a
JOIN EACH
(
SELECT MAX(created_at) as max_created, repository_url
FROM [githubarchive:github.timeline]
GROUP EACH BY repository_url
) b
ON
b.max_created = a.created_at and
b.repository_url = a.repository_url
WHERE payload_ref_type="repository" AND a.repository_name = 'rails'
我知道这个数据集不包含 2011 年之前的数据,但它应该包含有关最近活动存储库的信息
我不明白这个查询的结果:
- 它只返回“CreateEvent”类型的事件,这些事件总是早于“PushEvent”
- 它不返回主 Rails 存储库:https ://github.com/rails/rails
- Github 搜索报告 147149 个名为“rails”的存储库,查询仅返回 476 个存储库
我的查询在某种程度上是错误的,为什么它不返回 PushEvents ?关于 github 存档数据集还有其他技巧吗?