我正在尝试通过以下方式衡量编程语言的流行度:
- 回购中的星星数量与......
- 回购中使用的编程语言和...
- 每种语言的代码总字节数(认识到某些语言或多/少冗长)
方便的是,Github Archive 提供了大量的 Github 数据,并由 BigQuery 托管。唯一的问题是我在 Github Archive 中的各种事件类型的任何有效负载中都看不到可用的“语言”。
这是我一直在运行的 BigQuery 查询,试图找出是否以及在哪里可以在 Github 存档数据中填充语言:
SELECT *
FROM [githubarchive:month.201612]
WHERE JSON_EXTRACT(payload, "$.repository.language") is null
LIMIT 100
有人可以提供有关我是否能够以这种方式利用 Github Archive 数据的见解,以及我该如何去做?还是我需要采用其他方法?我看到 BigQuery 上还有一个 github_repos 公共数据集,它确实有一些语言指标,但语言指标似乎一直都结束了。我希望最终获得某种月度指标(即,在给定月份的“活跃”回购,最流行的语言是什么)。
任何建议表示赞赏!