问题标签 [github-archive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
github - 一个人可以从 GitHub Archive 检索数据多远?
GitHub 存档项目 状态
GitHub Archive 是一个记录公共 GitHub 时间线、将其存档并使其易于访问以进行进一步分析的项目。
该档案也可通过Google Big Query进行查询。但是,看起来我要么遗漏了某些东西,要么只有一部分数据可用。
事实上,运行以下查询只返回1636
WatchEvents(started或stopped),而Rails 存储库的帐户比14300
观察者更多。
看起来最早检索到的数据大约有 2.5 个月的历史。
数据会被截断吗(这对于存档来说可能看起来很奇怪)?是否存在与使用 BigQuery 相关的限制/配额?
sql - 追踪 GitHub 上前 100 个存储库的增长情况?
我正在尝试追踪 GitHub 上前 100 个存储库的增长情况。我有以下查询:
这给了我 2012 年 4 月 1 日分叉最大的 100 个存储库。然后我想跟踪每个存储库每个月的分叉数量如何增长。
因此,我构造了以下查询:
这种给了我我想要的东西,但不完全是。相反,我需要查询:
- 为每个月(每个 repo)的分叉总数提供一个数字
- 搜索第一个查询中标识的 100 个存储库
我怎样才能做到这一点?
github - 解析 githubarchive 响应
我正在尝试参加 Github 数据挑战赛,我正在尝试分析一组 PushEvent,但我得到了一些奇怪的(?)结果。
该脚本可以正常工作,但是当我通过以下方式查看一个人所做的最多提交时
我看到有人在一天内提交了超过 7k 次提交。当我通过并打印出来时
所有打印结果基本相同:
我假设与 PushEvent 关联的提交消息是“由 'git notes add' 添加的注释”,所以这看起来对吗?还是我在这里误读了一些数据?
github - 在 github 上,有没有办法找到问题和 pullrequest 之间、问题和提交之间的联系等
在 github 网站上,很多问题都与拉取请求或提交相关联(引用)。有没有办法可以在 github 存档数据库或 github API 中找到连接?
github-archive - 从 GitHub 存档中获取数据
我尝试通过输入http://data.githubarchive.org/2012-04-15.json.gz从 GitHub Archive 获取历史数据,但我没有得到任何数据。
如何获取 GitHub 上的活动数据?
python - 将 10,000 多个 JSON 文件转换为一个 SQLite 数据库?
好的,所以我想构建一个简单的网络应用程序,它会以某种方式使用 githubarchive 数据。起初我想使用 BigQuery 数据库和它的 API,但是,我的免费配额将在一天内结束。
所以,我所做的是从站点下载所有 2012/2013 记录,并将它们提取到一个文件夹中 - 现在我有 10k+ json 文件,而不是我想用来为我的应用程序获取数据的数据。
所以我想要的是:创建一个 GAE (python) 或 Django 应用程序来可视化这些数据。为此,我需要将 json 文件转换为数据库 - 我想使用 SQLite,但我不确定什么是最佳选择。我不确定是否需要创建数据库,但这就是我现在能想到的。
有人对我有什么建议吗?
google-bigquery - Google BigQuery:如何为查询结果中的值获取不同的行
我正在尝试在 github 存档(http://www.githubarchive.org/)数据上使用 Google BigQuery 来获取存储库在其最新事件发生时的统计信息,并且我正在尝试为最多的存储库获取此信息观察者。我意识到这很多,但我觉得我真的很接近在一次查询中得到它。
这是我现在的查询:
唯一的问题是我得到了来自最高关注存储库(twitter bootstrap)的所有事件:
结果:
...
我怎样才能让它返回一个repository_name的单个结果(最近的,又名Max(time))?
我试过了:
不确定这是否可行,但没关系,因为我收到错误消息:
任何帮助都会很棒,谢谢。
json - 为什么连续的事件 json 在 githubarchive 的某些包中位于同一行?
在Ilya Grigorik 提供的http://www.githubarchive.org/中,我发现在许多 gz 文件中,一些连续的事件被记录到同一个文件中。
例如在 2011-03-15-21.json.gz
要完成上述操作:wget http://data.githubarchive.org/2011-03-15-21.json.gz
例如,在这个 gz 中,如果您搜索 id 1484832 ,您会发现 2 个连续事件(jsons)在同一行,请参阅 http://codebeautify.org/jsonviewer/2cb891
同一行中的两个 json 是
http://codebeautify.org/jsonviewer/c7e18e
和
http://codebeautify.org/jsonviewer/945d56
.
有什么影响?当我加载每一行并用python加载它时(为什么是python?因为我觉得python在处理jsons方面很舒服)json.loads它说它是无效的,因为它是两个jsons的组合。
问题 :
1)当您处理该 github 存档数据时,您是如何解决这些错误的?
2)我的本地数据已经有了。那么我该如何克服这个问题。我应该编写特定于这种情况的代码来克服吗?我写的代码就像
sql - 谷歌 BigQuery SQL 语句
我正在尝试使用 Google Big Query 从 GitHub 存档中获取一些数据。我当前请求的数据量太大,BigQuery 无法处理(至少在免费层中),所以我试图限制我的请求范围。
我想限制数据,以便只有当前拥有超过 1000 颗星的存储库才会返回历史数据。它比仅仅说 repository_watchers > 1000 更复杂,因为这将排除存储库获得的前 1000 颗星的历史数据。
编辑:我使用的解决方案(基于@Brian 的回答)
github - 从 Github Archive 获取最新的存储库信息
我想在 github 存档时间线数据集上使用 Google Big Query 检索有关存储库的最新信息。
我试图加入 max(created_at) 但我得到的信息非常不完整。这是 rails repo 的查询:
我知道这个数据集不包含 2011 年之前的数据,但它应该包含有关最近活动存储库的信息
我不明白这个查询的结果:
- 它只返回“CreateEvent”类型的事件,这些事件总是早于“PushEvent”
- 它不返回主 Rails 存储库:https ://github.com/rails/rails
- Github 搜索报告 147149 个名为“rails”的存储库,查询仅返回 476 个存储库
我的查询在某种程度上是错误的,为什么它不返回 PushEvents ?关于 github 存档数据集还有其他技巧吗?