问题标签 [dvc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
855 浏览

dvc - 撤消“dvc 添加”操作

dvc add编辑了一个我不想添加的文件。我还没有承诺。

如何撤消此操作?在 Git 中,你会做git rm --cached <filename>.

明确一点:我想让 DVC 忘记该文件,并且我希望该文件在我的工作树中保持不变。这与dvc remove所做的相反。

DVC 问题跟踪器上的一个问题表明这dvc unprotect是正确的命令。但阅读手册页表明并非如此。

这对 DVC 可行吗?

0 投票
1 回答
1102 浏览

dvc - dvc gc 和远程缓存中的文件

dvc gc命令状态的dvc 文档,该-r选项指示“远程存储以收集垃圾”,但我不确定我是否理解正确。例如我执行这个命令:

如果我执行这个命令会发生什么?我有两个可能的答案:

  1. dvc 检查应该删除哪些文件,然后将这些文件移动到“myremote”,然后删除本地缓存中的所有这些文件,而不是远程缓存中的所有这些文件。
  2. dvc 检查哪些文件应该被删除,并在本地缓存和“myremote”中删除这些文件

其中哪一项是正确的?

0 投票
1 回答
160 浏览

javascript - Highlight.js 不尊重子模式的父正则表达式

我需要编写一个词法分析器来正确突出我的命令行工具命令。

所以命令以它开头,dvc它可能有一个或两个子命令 -addpipeline list分别。

因此,它应该分别在第一种和第二种情况下突出显示dvc add和。dvc pipeline list

dvc pipeline list即使父正则表达式 ie/^\s*\$\s(dvc|git) [a-z-]+/应该只匹配 until ,它也匹配dvc pipeline。它究竟是如何运作的?

如何/dvc [a-z-]+ ?/覆盖它并继续匹配表达式?

请在此处参考此库文档:https ://highlightjs.readthedocs.io/en/latest/reference.html

0 投票
2 回答
4716 浏览

git - git-lfs 和 dvc 的区别

这两者有什么区别?我们在之前的工作中使用了 git-lfs,并且在我现在的工作中我们开始将 dvc 与 git 一起使用。它们都放置某种索引而不是文件,并且可以按需下载。dvc 对前一个有一些改进吗?

0 投票
2 回答
1466 浏览

dvc - 如何为不同的文件夹使用不同的遥控器?

我希望我的数据和模型存储在单独的 Google Cloud 存储桶中。这个想法是我希望能够在不共享模型的情况下与他人共享数据。

我能想到的一个想法是为数据和模型使用单独的 git 子模块。但这感觉很麻烦,并且对最终用户提出了一些额外的要求(例如,必须做git submodule update)。

那么我可以在不使用 git 子模块的情况下做到这一点吗?

0 投票
1 回答
582 浏览

python - 我可以大约多少。使用 dvc 减少磁盘容量?

我想对 1m+ 文档进行分类,并为相应模型的输入和输出提供版本控制系统。

数据随时间变化:

  • 样本量随时间增加
  • 可能会出现新功能
  • 匿名化程序可能会随着时间而改变

所以基本上“一切”都可能改变:观察量、特征和值。我们有兴趣在不使用 10/100+ GB 磁盘容量的情况下使 ml 模型构建可重现,因为我们保存了输入数据的所有更新版本。目前数据的卷大小约为 700mb。

我发现的最有前途的工具是:https ://github.com/iterative/dvc 。目前,数据存储在数据库中,从那里加载到 R/Python 中。

问题:

使用 dvc 可以(大约)节省多少磁盘容量?

如果可以粗略估计一下。我试图找出是否只保存了数据的“差异”。通过阅读,我没有找到太多信息:https ://github.com/iterative/dvc#how-dvc-works或其他文档。

我知道这是一个非常模糊的问题。它将高度依赖于数据集。但是,我仍然有兴趣获得一个非常近似的想法。

0 投票
1 回答
494 浏览

version-control - DVC 如何将目录级别的差异存储到 DVC 缓存中?

有人可以解释 DVC 如何将目录级别的差异存储到 DVC 缓存中。

我了解 DVC 文件 (.dvc) 是用于跟踪数据、模型和重现管道阶段的元文件。但是,我不清楚创建分支、提交它们并切换回主文件的过程是如何准确保存在差异中的。

0 投票
2 回答
4658 浏览

dvc - 尝试运行 DVC pull 时出现这个奇怪的错误

我是使用 DVC 的新手,只是在探索它。我正在尝试从我团队中的另一个人推送的 s3 中提取数据。但我收到此错误:

0 投票
1 回答
213 浏览

dvc - 使用 s3remote 进行 DVC 时如何指定加密类型

我刚刚开始探索 DVC。我正在尝试将 s3 作为我的 DVC 遥控器。我正进入(状态

但是当我运行dvc push命令时,我得到一般错误说

我知道当我不指定加密时会出现该错误。

它类似于aws s3 cp使用--sse标志运行或ServerSideEncryption使用 boto3 库时指定。使用 DVC 时如何指定加密类型。因为 DVC 下的 Coz 使用 boto3,所以必须有一个简单的方法来做到这一点。

0 投票
1 回答
874 浏览

git - 是否有必要从我们的 CI 管道提交 DVC 文件?

DVC 使用 git 提交来保存实验并在实验之间导航。

是否可以避免在 CI/CD 中进行自动提交(以dvc repro在 CI/CD 端保存数据工件)。