4

我正在尝试从我的 Git 历史记录中删除敏感数据,例如密码。而不是删除整个文件,我只想用removedSensitiveInfo. 这是我在浏览了许多 StackOverflow 主题和其他网站后得出的结论。

git filter-branch --tree-filter "find . -type f -exec sed -Ei '' -e 's/(aSecretPassword1|aSecretPassword2|aSecretPassword3)/removedSensitiveInfo/g' {} \;"

当我运行这个命令时,它似乎正在重写历史记录(它显示了它正在重写的提交并且需要几分钟)。但是,当我检查所有敏感数据是否确实已被删除时,结果发现它仍然存在。

作为参考,这是我进行检查的方式

git grep aSecretPassword1 $(git rev-list --all)

这向我显示了与搜索查询匹配的所有数百个提交。什么都没有被替代。

知道这里发生了什么吗?

我仔细检查了我正在使用的正则表达式,这似乎是正确的。我不确定还要检查什么或如何正确调试它,因为我的 Git 知识非常初级。例如,我不知道如何测试 1) 我的正则表达式是否不匹配任何内容,2) sed 没有在所有文件上运行,3) 文件更改没有被保存,或者 4) 其他东西。

很感谢任何形式的帮助。

PS 我知道关于这个主题的几个 StackOverflow 线程。但是,我找不到关于在所有(ASCII)文件(而不是指定特定文件或文件类型)中替换单词(而不是删除文件)的方法。不确定这是否应该有所作为,但所有建议的解决方案都对我不起作用。

4

2 回答 2

11

git-filter-branch是一个功能强大但难以使用的工具 - 要正确使用它来完成您的任务,您需要了解几件晦涩难懂的事情,每件事情都是您所看到的问题的可能原因。因此,与其立即尝试调试它们,不如退后一步,看看原来的问题:

  • 在所有文本文件中替换给定的字符串(即密码)(不指定特定的文件/文件类型)
  • 确保更新的 Git 历史记录不包含旧密码文本
  • 尽可能简单地执行上述操作

这个问题有一个量身定制的解决方案:

使用 BFG ......而不是 git-filter-branch

BFG Repo-Cleaner是一种更简单的替代方案,git-filter-branch 专门用于从 Git 存储库历史记录中删除密码和其他不需要的数据。

BFG 在这种情况下帮助您的方式:

  • BFG 快 10-720
  • 它会自动在所有标签和引用上运行,不像 git-filter-branch- 只有在您添加非凡的--tag-name-filter cat -- --all命令行选项时才会这样做(请注意,您在问题中给出的示例命令没有这个,这可能是您的问题的原因)
  • BFG 不会生成任何refs/original/参考 - 因此您无需执行额外的步骤来删除它们
  • 您可以将密码表示为简单的文字字符串,而不必担心正确转义正则表达式。如果你真的需要,BFG 也可以处理正则表达式。

使用 BFG

仔细遵循使用步骤- 核心位就是这个命令:

$ java -jar bfg.jar  --replace-text replacements.txt  my-repo.git

replacements.txt文件应包含您想要执行的所有替换,格式如下(每行一个条目 - 请注意不应包含注释):

PASSWORD1 # Replace literal string 'PASSWORD1' with '***REMOVED***' (default)
PASSWORD2==>examplePass         # replace with 'examplePass' instead
PASSWORD3==>                    # replace with the empty string
regex:password=\w+==>password=  # Replace, using a regex

将扫描您的整个存储库历史记录,并且所有文本文件(大小小于 1MB)都将执行替换:任何匹配的字符串(不在您的最新提交中)都将被替换。

全面披露:我是 BFG Repo-Cleaner 的作者。

于 2013-11-09T07:55:02.563 回答
2

看起来不错。请记住,filter-branch 保留了 下的原始提交refs/original/,例如:

$ git commit -m 'add secret password, oops!'
[master edaf467] add secret password, oops!
 1 file changed, 4 insertions(+)
 create mode 100644 secret
$ git filter-branch --tree-filter "find . -type f -exec sed -Ei '' -e 's/(aSecretPassword1|aSecretPassword2|aSecretPassword3)/removedSensitiveInfo/g' {} \;"
Rewrite edaf467960ade97ea03162ec89f11cae7c256e3d (2/2)
Ref 'refs/heads/master' was rewritten

然后:

$ git grep aSecretPassword `git rev-list --all`
edaf467960ade97ea03162ec89f11cae7c256e3d:secret:aSecretPassword2

但:

$ git lola
* e530e69 (HEAD, master) add secret password, oops!
| * edaf467 (refs/original/refs/heads/master) add secret password, oops!
|/  
* 7624023 Initial

git lola是我的别名git log --graph --oneline --decorate --all)。是的,它在那里,但在refs/original名称空间下。清除它:

$ rm -rf .git/refs/original
$ git reflog expire --expire=now --all
$ git gc
Counting objects: 6, done.
Delta compression using up to 8 threads.
Compressing objects: 100% (4/4), done.
Writing objects: 100% (6/6), done.
Total 6 (delta 0), reused 0 (delta 0)

进而:

$ git grep aSecretPassword `git rev-list --all`
$ 

(与往常一样,filter-branch在 repo 的副本上运行以防万一;然后删除原始 refs,使 reflog “现在”过期,并且 gc'ing 意味着东西真的消失了)。

于 2013-11-09T00:49:46.277 回答