2

在将其加载到 DBMS 之前,我想要一个用于大量数据库数据的源代码控制环境。我们一直在使用 GITHUB,它很棒。但他们希望存储库小于 1 GB,而我们有数百个。

它可以在 CVS 或 SVN 中,但跟踪版本很重要。数据是非常静态的,只能以低速率访问,例如每周一次访问部分数据,每月一次访问更多。

有什么建议的地方/服务可以做到这一点吗?它不一定是免费的,我们很乐意支付合理的金额。

4

1 回答 1

0

我确认这种数据量与版本控制系统不兼容(用于记录历史,即主要是文本文件和小型二进制文件的演变)

它肯定与分布式VCS 不兼容,其中任何克隆都会克隆所有存储库。

您需要查看此类存储的云服务。


OP 抗议(downvote),指出:

它们将是普通的 ASCII,除了 GitHub 的文件大小限制如此之小,我通过 ZIP 压缩运行它们。
它们很少改变,当内容改变时,它只是文件中的一小部分行。
它正是版本控制的意义所在。哪 0.005% 的 ASCII 改变了?谁改的?什么时候?

我坚持认为:

  • 数百兆字节与大多数源代码控制存储库提供商不兼容(它甚至与大多数内部企业存储库不兼容,而且我在一家公司)
  • 将它们放在 zip 文件中是不切实际的,因为版本控制工具系统无法记录增量。

你需要保持分开

  • 数据(将“其他地方”存储为纯文本文件的大量内容,当然不在 GitHub 上)
  • 您想要的元数据(作者,修改日期),存储在与“shell”数据相关联的常规 git 存储库中(即,您的文件实际上是“引用”,或某种“符号链接”到放置在别处的实际文件)

一个基于 Git 的系统,它提供了git-annex,使用您自己的云存储和(如果实施)git-annex 助手:请参阅它的路线图

于 2012-09-26T06:50:47.237 回答