1

使用 git 我管理一个 python 脚本(script.py)和一组测试的更改,这个测试使用一些文本输入数据文件,具有这个目录结构

script.py
tests/
  test_01.py
  test_02.py
  data/
   data_file01
   data_file02
   ...

但是,一些输入数据文件开始变得非常大(> 1MB)。

使用 git,哪个是管理测试输入数据的好方法?

...也许允许在线存储,但是,如何保存和检查输入数据文件的更改?(建议?)

...或者可能使用一个库setuptools来检查输入数据是否不存在测试并下载它,但是,如何保存和检查输入数据文件的更改?

编辑

现在我将数据测试备份到一个压缩文件中,并在云盘(dropbox、google drive等)中使用相应的提交名称,在提交后挂钩中添加一行

commit_name=$(git rev-parse HEAD)
fecha=$(date +%Y%m%d)
7z a $CLOUD_DISK"/data_test/$fecha"_"$commit_name".7z data/* -r

(我更喜欢 7z 而不是 zip,因为我得到的压缩文件更小)

$CLOUD_DISK变量定义在.bashrc.

编辑 2

我开始以更完整的方式解决我的问题。

https://github.com/juanpabloaj/gitdata

4

1 回答 1

0

我会将数据保存在您的存储库中。您需要跟踪输入数据的变化以防它们引入问题的权利。否则,也许创建数据的哈希值,如校验和?

于 2014-02-20T23:04:42.553 回答