问题标签 [github-archive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
58 浏览

google-bigquery - 如何获得具有最大星数和少于 100 次提交的 java 存储库

我目前正在尝试使用 GitHub Archive 和 BigQuery 获取前 100 个具有最大星数和少于 100 次提交的 Java 存储库。您能否为此目的提出一个查询。

我为获取 Java 语言的前 100 条记录而编写的初始查询如下:


0 投票
1 回答
121 浏览

google-bigquery - 如何在 GitHub-Archive 中获取具有最大星数的 java 存储库

我目前正在尝试使用 GitHub Archive 和 BigQuery 获取前 100 个具有最大星数和少于 100 次提交的 Java 存储库。请您帮忙提出一个查询,以获取拥有最大星数的前 100 个存储库。

我得到的最终查询是:

0 投票
1 回答
99 浏览

ruby - GitHub 存档 - 使用范围检索数据的问题

我正在尝试从 [GitHub 存档]:https : //www.githubarchive.org/ 检索数据,并且在添加范围时无法检索数据。它在我使用http://data.githubarchive.org/2015-01-01-15.json.gz时有效,但在使用http://时收到 `open_http': 404 Not Found (OpenURI::HTTPError) 消息data.githubarchive.org/2015-01-01-{0..23}.json.gz

使用 curl http://data.githubarchive.org/2015-01-01- {0..23}.json.gz 似乎正在工作。

基本上,我的目标是编写一个程序来检索特定时间范围内前 42 个最活跃的存储库。

这是我的代码,请让我知道我使用 API 不正确或代码问题。

0 投票
2 回答
422 浏览

google-bigquery - 如何搜索按提交次数排序的 github 项目?

我正在考虑尝试 BigQuery 和 GithubArchive,但我不确定如何编写一个查询,让我可以在代码或项目中搜索一个术语,并按提交次数降序排列结果。

感谢您的任何提示

0 投票
2 回答
475 浏览

github - 如何从 BigQuery 中提取 github 时间线数据

我无法从BigQuery.

我正在使用以下查询:

SELECT repository_name, actor_attributes_company, payload_ref_type, payload_action, type, created_at FROM githubarchive:github.timeline WHERE repository_organization = 'foo' and created_at > '2014-07-01'

一切都很好。现在,看起来 githubarchive:github.timeline 表不再可用。我一直在环顾四周,发现了另一张桌子:

SELECT repository_name, actor_attributes_company, payload_ref_type, payload_action, type, created_at FROM publicdata:samples.github_timeline WHERE repository_organization = 'foo' and created_at > '2014-07-01'

此查询有效,但返回零行。当我删除 created_at 限制时,它起作用了,但只返回了 2012 年的几行,所以看起来这只是示例数据。

有谁知道如何从 GitHub 中提取实时时间线数据?

0 投票
1 回答
150 浏览

github - Big Query 上的 Github 存档中缺少数据?

Big Query 上的 Github 存档中缺少数据?

使用Github Archive 中的 BigQuery 表,并对typelevel/cats 存储库的拉取请求运行查询,尽管实际存储库显示从 2015 年 1 月 28 日开始的活动,但在 2016 年 1 月 1 日之前没有条目。

显示早期拉取请求的 github 存储库链接

查询如下。想检查一下这是否是我的错误或误解,或者是否可能存在一些仅在 BQ 表中部分可用的存储库。

0 投票
2 回答
729 浏览

github - 如何通过 Github Archive 数据衡量语言流行度?

我正在尝试通过以下方式衡量编程语言的流行度:

  1. 回购中的星星数量与......
  2. 回购中使用的编程语言和...
  3. 每种语言的代码总字节数(认识到某些语言或多/少冗长)

方便的是,Github Archive 提供了大量的 Github 数据,并由 BigQuery 托管。唯一的问题是我在 Github Archive 中的各种事件类型的任何有效负载中都看不到可用的“语言”。

这是我一直在运行的 BigQuery 查询,试图找出是否以及在哪里可以在 Github 存档数据中填充语言:

有人可以提供有关我是否能够以这种方式利用 Github Archive 数据的见解,以及我该如何去做?还是我需要采用其他方法?我看到 BigQuery 上还有一个 github_repos 公共数据集,它确实有一些语言指标,但语言指标似乎一直都结束了。我希望最终获得某种月度指标(即,在给定月份的“活跃”回购,最流行的语言是什么)。

任何建议表示赞赏!

0 投票
0 回答
89 浏览

github - 检索 GitHub 存储库的语言和观星者

我是 SQL 和 GitHubArchieve 的新手,并试图获取 GitHub 上流行存储库的语言和观星者列表。

我正在寻找的信息是 repo id、repo 语言(语言 + 百分比)、repo stargazers(及其时区)。

因此,我对此的解决方案是检索最流行的存储库,然后解析languages_urlstargazers_url获取它们的信息。

我从以下查询开始检索流行的存储库:

watch 事件的有效负载只是:{"action":"started"}所以我没有得到任何关于语言和存储库贡献者的信息。

有什么建议可以获取我正在寻找的信息吗?有什么方法可以在不解析的情况下检索该信息?

提前致谢

0 投票
1 回答
210 浏览

github - 为什么 Big Query 上的 Github Archive 中的 fork 数量与 UI 不匹配?

我正在尝试通过 Big Query(此处的文档)获取 Github 存档中的各种 Github 存储库指标。但是,当我尝试计算分叉数量时,我得到的数字与 Github UI 中指定的分叉数量有很大不同。例如,当我运行这个 sql 脚本时:

我得到以下结果:

但是,当我转到 URL ' https://github.com/python/cpython ' 时,我看到有 8,198 个分叉。这种差异的原因是什么?

编辑:

Felipe 在下面指出,同一个 repo 可能有多个 URL。费利佩的输出

然而,即使有多个 URL,这个数字也不能与 UI 完全匹配,而且这一次比 UI 的数字要大得多。有什么办法可以精确匹配吗?

0 投票
0 回答
20 浏览

github - 在 github 上监控协作者的变化

我有一个宠物项目,我正在尝试获取有关合作者的一些统计数据(核心团队成员,根据https://github.com/CoolProp/CoolProp/wiki/Contributors-vs-Collaborators)。基本上我想知道人们何时被添加到回购中。由于我想追溯获取该信息,因此我正在考虑使用 github 存档。

根据文档(https://developer.github.com/v3/activity/events/types/#memberevent) MemberEvent 是我正在寻找的。然而,据我所知,Github 档案中几乎没有任何此类事件。我发现的只是“添加”事件。回购页面上的某个地方我应该能够看到它,以便我可以对从 github 存档和项目页面检索到的内容进行三角测量?

非常感谢!