3

我正在寻找一种从 Github 随机抽样 repos 的解决方案。最终的结果是对样本进行一些数据分析。

我想做的是按存储库的 id 进行采样:对 0 到 270 万之间的 int 进行采样并找到相关的 repo。获得用户名/repo-name 后,我将使用 api 获取详细信息。

问题是我不知道如何通过 repo id 进行搜索。有什么建议么?我对网页抓取或 Python 解决方案持开放态度。

4

1 回答 1

2

您可以使用 python 访问 Github V3 Api(如“最适合 Github API v3 的 python 库”)。

并且您可以从某个 id ( ,作为参数,您看到的最后一个 Repository 的整数 ID访问 GitHub reposGET /repositories:这样可以提供一种迂回的方式来访问带有其 id 的 repos。

于 2013-02-24T19:27:50.047 回答