我正在寻找一种从 Github 随机抽样 repos 的解决方案。最终的结果是对样本进行一些数据分析。
我想做的是按存储库的 id 进行采样:对 0 到 270 万之间的 int 进行采样并找到相关的 repo。获得用户名/repo-name 后,我将使用 api 获取详细信息。
问题是我不知道如何通过 repo id 进行搜索。有什么建议么?我对网页抓取或 Python 解决方案持开放态度。
您可以使用 python 访问 Github V3 Api(如“最适合 Github API v3 的 python 库”)。
并且您可以从某个 id ( ,作为参数,您看到的最后一个 Repository 的整数 ID访问 GitHub reposGET /repositories
:这样可以提供一种迂回的方式来访问带有其 id 的 repos。