我是 SQL 和 GitHubArchieve 的新手,并试图获取 GitHub 上流行存储库的语言和观星者列表。
我正在寻找的信息是 repo id、repo 语言(语言 + 百分比)、repo stargazers(及其时区)。
因此,我对此的解决方案是检索最流行的存储库,然后解析languages_url
并stargazers_url
获取它们的信息。
我从以下查询开始检索流行的存储库:
SELECT
repo.name,
repo.id,
repo.url,
payload,
COUNT(*) watch_count,
JSON_EXTRACT_SCALAR(payload, '$.watch.action.repository.languages_url') AS repo_languages_url
FROM [githubarchive:month.201601],
WHERE type = 'WatchEvent'
GROUP BY 1,2,3,4,6
HAVING watch_count >= 2000 ORDER BY watch_count DESC
LIMIT 1000
watch 事件的有效负载只是:{"action":"started"}
所以我没有得到任何关于语言和存储库贡献者的信息。
有什么建议可以获取我正在寻找的信息吗?有什么方法可以在不解析的情况下检索该信息?
提前致谢