问题标签 [dvc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dvc - dvc gc 和远程缓存中的文件
dvc gc命令状态的dvc 文档,该-r选项指示“远程存储以收集垃圾”,但我不确定我是否理解正确。例如我执行这个命令:
如果我执行这个命令会发生什么?我有两个可能的答案:
- dvc 检查应该删除哪些文件,然后将这些文件移动到“myremote”,然后删除本地缓存中的所有这些文件,而不是远程缓存中的所有这些文件。
- dvc 检查哪些文件应该被删除,并在本地缓存和“myremote”中删除这些文件
其中哪一项是正确的?
javascript - Highlight.js 不尊重子模式的父正则表达式
我需要编写一个词法分析器来正确突出我的命令行工具命令。
所以命令以它开头,dvc它可能有一个或两个子命令 -add或pipeline list分别。
因此,它应该分别在第一种和第二种情况下突出显示dvc add和。dvc pipeline list
dvc pipeline list即使父正则表达式 ie/^\s*\$\s(dvc|git) [a-z-]+/应该只匹配 until ,它也匹配dvc pipeline。它究竟是如何运作的?
如何/dvc [a-z-]+ ?/覆盖它并继续匹配表达式?
请在此处参考此库文档:https ://highlightjs.readthedocs.io/en/latest/reference.html
git - git-lfs 和 dvc 的区别
这两者有什么区别?我们在之前的工作中使用了 git-lfs,并且在我现在的工作中我们开始将 dvc 与 git 一起使用。它们都放置某种索引而不是文件,并且可以按需下载。dvc 对前一个有一些改进吗?
dvc - 如何为不同的文件夹使用不同的遥控器?
我希望我的数据和模型存储在单独的 Google Cloud 存储桶中。这个想法是我希望能够在不共享模型的情况下与他人共享数据。
我能想到的一个想法是为数据和模型使用单独的 git 子模块。但这感觉很麻烦,并且对最终用户提出了一些额外的要求(例如,必须做git submodule update)。
那么我可以在不使用 git 子模块的情况下做到这一点吗?
python - 我可以大约多少。使用 dvc 减少磁盘容量?
我想对 1m+ 文档进行分类,并为相应模型的输入和输出提供版本控制系统。
数据随时间变化:
- 样本量随时间增加
- 可能会出现新功能
- 匿名化程序可能会随着时间而改变
所以基本上“一切”都可能改变:观察量、特征和值。我们有兴趣在不使用 10/100+ GB 磁盘容量的情况下使 ml 模型构建可重现,因为我们保存了输入数据的所有更新版本。目前数据的卷大小约为 700mb。
我发现的最有前途的工具是:https ://github.com/iterative/dvc 。目前,数据存储在数据库中,从那里加载到 R/Python 中。
问题:
使用 dvc 可以(大约)节省多少磁盘容量?
如果可以粗略估计一下。我试图找出是否只保存了数据的“差异”。通过阅读,我没有找到太多信息:https ://github.com/iterative/dvc#how-dvc-works或其他文档。
我知道这是一个非常模糊的问题。它将高度依赖于数据集。但是,我仍然有兴趣获得一个非常近似的想法。
version-control - DVC 如何将目录级别的差异存储到 DVC 缓存中?
有人可以解释 DVC 如何将目录级别的差异存储到 DVC 缓存中。
我了解 DVC 文件 (.dvc) 是用于跟踪数据、模型和重现管道阶段的元文件。但是,我不清楚创建分支、提交它们并切换回主文件的过程是如何准确保存在差异中的。
dvc - 尝试运行 DVC pull 时出现这个奇怪的错误
我是使用 DVC 的新手,只是在探索它。我正在尝试从我团队中的另一个人推送的 s3 中提取数据。但我收到此错误:
dvc - 使用 s3remote 进行 DVC 时如何指定加密类型
我刚刚开始探索 DVC。我正在尝试将 s3 作为我的 DVC 遥控器。我正进入(状态
但是当我运行dvc push命令时,我得到一般错误说
我知道当我不指定加密时会出现该错误。
它类似于aws s3 cp使用--sse标志运行或ServerSideEncryption使用 boto3 库时指定。使用 DVC 时如何指定加密类型。因为 DVC 下的 Coz 使用 boto3,所以必须有一个简单的方法来做到这一点。
git - 是否有必要从我们的 CI 管道提交 DVC 文件?
DVC 使用 git 提交来保存实验并在实验之间导航。
是否可以避免在 CI/CD 中进行自动提交(以dvc repro在 CI/CD 端保存数据工件)。