1

我是 GitHub 代码和数据搜索的新手。我的动机是搜索/扫描 GitHub/Git 的 A 到 Z 公共存储库,以确保没有人复制我的公司源代码或敏感数据。

我正在考虑以下挑战;

  1. 如何在 GitHub 上获取 A 到 Z 公共存储库的列表。
  2. 如何扫描我的数据,可能在数百万个存储库中。
  3. 如果有办法用任何脚本或代码扫描 Words 目录。

请给我一个指导。

非常感谢您的快速帮助(提前!)

阿布舍克

4

1 回答 1

1

欢迎来到 StackOverflow!

最好的办法是使用Github 的搜索 API来查找您感兴趣的代码。例如,使用 Github 的搜索(而不是通过 API)搜索我的域名,我能够找到我已提交的代码

但是,请记住,这并不能解决您确保没有人复制您的源代码的问题。有无数的 git 服务:GitHub、GitLab、Bitbucket,仅举几例。除此之外,您还必须与无法搜索的私有存储库抗衡。不可能搜索所有内容。您最好的选择是制定安全措施以防止其发生,例如严格的访问控制,确保您的员工以及与您合作的任何供应商理解并同意公司有关数据的政策。

最后,制定一个负责任的披露计划将鼓励白帽黑客将任何违规行为通知您。

现在,考虑到所有这些,我仍然认为创建一个小型机器人来搜索 github 等热门地点并不是一个坏主意。您可以做的另一件事是创建一个金丝雀,其中您有一个唯一的工作是唯一可识别的对象,以便如果存在违规行为,您的搜索可以轻松找到它。

金丝雀可以是数据库中的唯一行,其中包含唯一文本的特定文件等。您可以定期搜索该文本,如果出现,您就知道存在违规行为。

于 2019-12-02T16:12:20.543 回答