您可以解析 repos 的 github 页面。
您所需要的只是一个您喜欢的语言的解析库。我从来没有在 R 中做过(通常,我使用 Python),但我想你会找到一些东西。如果用于解析的 R 工具不够方便,您可以使用另一种语言来解析数据并使用 R 来处理它。
如何解析。
您的搜索请求的 URL 是
https://github.com/search?p=1&q=language%3AR&ref=simplesearch&type=Repositories
然后看分页块。
<span class="disabled prev_page">◀</span>
<span class="current">1</span>
<a href="/search?p=2&q=language%3AR&ref=simplesearch&type=Repositories" rel="next">2</a>
<a href="/search?p=3&q=language%3AR&ref=simplesearch&type=Repositories">3</a>
<a href="/search?p=4&q=language%3AR&ref=simplesearch&type=Repositories">4</a>
<a href="/search?p=5&q=language%3AR&ref=simplesearch&type=Repositories">5</a>
<a href="/search?p=6&q=language%3AR&ref=simplesearch&type=Repositories">6</a>
<a href="/search?p=7&q=language%3AR&ref=simplesearch&type=Repositories">7</a>
<a href="/search?p=8&q=language%3AR&ref=simplesearch&type=Repositories">8</a>
<a href="/search?p=9&q=language%3AR&ref=simplesearch&type=Repositories">9</a>
<span class="gap">…</span>
<a href="/search?p=99&q=language%3AR&ref=simplesearch&type=Repositories">99</a>
<a href="/search?p=100&q=language%3AR&ref=simplesearch&type=Repositories">100</a>
<a href="/search?p=2&q=language%3AR&ref=simplesearch&type=Repositories" class="next_page" rel="next">▶</a></div>
您可以使用解析选择器在此处获取页码 (100)。然后,您可以为它们解析所有 repos 标题和链接。他们看起来像
<h3 class="repolist-name">
<a href="/hadley/devtools" class="css-truncate css-truncate-target">hadley/devtools</a>
</h3>
使用 url 并将页面从 1 更改为 max,您可以获得所有 repos 和链接。然后看看回购页面。例如,我们正在寻找 NAMESPACE。
<td class="content">
<span class="css-truncate css-truncate-target"><a href="/hadley/devtools/blob/master/NAMESPACE" class="js-directory-link" id="7347fe5a0f184f79ef064e92e3beb297-5343453e5cabfcbdea6f829e232c6f994af44719" title="NAMESPACE">NAMESPACE</a></span>
</td>
只需搜索 css-class "js-directory-link",您就可以找到很多东西。
最后要做的是做出某种逻辑来做出决定!