问题标签 [reproducible-research]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - TensorFlow - 使用 dropout 时重现结果
我正在使用 dropout 正则化训练神经网络。我保存了初始化网络的权重和偏差,这样当我得到好的结果时我可以重复实验。
然而,dropout 的使用在网络中引入了一些随机性:由于 dropout 随机丢弃单元,每次我重新运行网络时,都会丢弃不同的单元——即使我用完全相同的权重和偏差初始化网络(如果我理解这一点正确)。
有没有办法使辍学具有确定性?
python - 在 TensorFlow 中编写摘要会导致对图的额外评估
使用 Tensorflow Supervisor 编写摘要会重新评估可能产生不良后果的图表。
这样的后果之一是改变随机状态,进而影响再现性。我写了一个小例子来演示这种影响。
在上面的示例中,我定义了两个具有相同图级随机种子的图。在第二张图中,我使用 tf.train.Supervisor 编写摘要。然后我通过评估每个图 N 次来生成 N 个随机数。带有摘要编写器的图表“跳过”了一些随机数;因此,取决于何时编写与全局步骤相关的摘要,您会得到随机不同的结果。
这种影响产生不良后果的另一个例子是,当您使用 Tensorflow 记录读取器进行批处理并使用 Supervisor 编写摘要时,由于额外的图形评估,每次摘要写入会消耗额外的一批数据。
这也会影响依赖于 Supervisor 的所有工具的行为,例如 Tensorflow-slim。
是否有一种传统的方式与主管沟通以在同一个图表评估中收集操作及其各自的摘要?我想可以通过定义操作及其摘要之间的依赖关系并传递summary_op=None
.
r - BLAS 更改对再现性的影响有多大?
今天,我将我的 BLAS 更改为vecLib
遵循这个要点(我有一台 Mac),并且给定测试的运行时间从 34.6 秒下降到 5.6 秒!
但是,我想知道这是否会影响我的结果的可重复性。你有什么主意吗?此更改将对哪些类型的操作产生影响?
r - 为什么 R 包会加载随机数?
caret
最近,当我注意到这一点时,我正在阅读包的文档:
另外,请注意,某些包在加载(直接或通过命名空间)时会加载随机数,这可能会影响 [原文如此] 可重复性。
加载随机数的包有哪些可能的用例?这似乎与可重复研究的想法背道而驰,并且可能会干扰我自己的尝试set.seed
。(我已经开始将种子设置为更接近需要随机数生成的代码,因为我担心加载包的副作用。)
python - 如何在 sklearn 中使用 LassoLarsCV 获得可重复的分割?
如果我适合LassoCV
using sklearn
,我可以做
并为交叉验证获得可重复的拆分。但是,如果我这样做
根据文档,LassoLarsCV
没有random_state
. 那么如何获得可重复的结果LassoLarsCV
呢?
r - 使用 dput() 的示例
作为这里的新用户,由于不可重现,我的问题没有得到完全回答。我阅读了与生成可重现代码有关的线程,但没有用。特别迷失了如何使用 dput() 函数。
有人可以逐步提供有关如何使用 iris df 使用 dput() 的步骤,例如这将非常有帮助。
r - 在 R 中使用 Leaflet 时缺少多边形
我正在尝试重现代码以在另一台计算机的地图中显示多边形,但是,在一台计算机中未显示多边形。有人在共享代码时遇到过这种问题吗?您可以从这里下载 shapefile: http: //www.conabio.gob.mx/informacion/metadata/gis/muni_2012gw.xml? _xsl=/db/metadata/xsl/fgdc_html.xsl&_indent=no
storage - xz 存档格式的安全性
在寻找长期存储大量数据(主要来自数值计算)的好选择时,我开始使用xz
存档格式 ( tar.xz
)。tar.gz
与更常见的(都具有合理的压缩选项)相比,那里的默认 LZMA 压缩提供了明显更好的存档大小(对于我的数据类型)。
然而,关于长期使用的安全性的第一次谷歌搜索xz
,到达了以下具有标题的网页(来自 的开发者之一)lzip
Xz 格式不适合长期存档
列出几个原因,包括:
xz
是一种容器格式,而不是前面有必要标头的简单压缩数据xz
格式碎片- 不合理的可扩展性
- 糟糕的报头设计和缺乏字段长度保护
- 4 字节对齐和到处使用填充
- 无法将尾随数据添加到已创建的存档中
xz
错误检测的多个问题- 没有数据恢复选项
虽然有些担忧似乎有点人为,但我想知道,是否有充分的理由不将xz
其用作长期存档的存档格式。
xz
如果我选择作为文件格式,我应该注意什么?(我想,即使 30 年后,访问xz
程序本身也不应该成为问题)
几点注意事项:
- 存储的数据是数值计算的结果,其中一些在不同的会议和期刊上发表。虽然存储结果并不一定意味着研究可重复性,但它是一个重要组成部分。
- 虽然使用更标准
tar.gz
甚至更普通zip
的可能是一个更明显的选择,但能够减少大约 30% 的存档大小对我来说非常有吸引力。
model - 在 Anylogic 中制作可重现的模型源到达
我目前正在急诊室制作一个小型模型。但是,我遇到了一个问题,我可以找到解决方案:
我试图在更改参数(例如护士或医生)时制作可重现的模型源到达。我的源块中有一个到达率时间表。在不更改参数的情况下运行模拟给了我可重复的到达模式,但是改变模型中护士的数量也会改变到达模式!!为什么会这样????我查看了创伤中心的示例模型,在这里它与我的模型相同。即使使用固定种子。尝试更改医生的数量,您可以看到到达的数量发生了变化??
最好的问候莫腾
r - 用于可重复科学的 R 和/或 Packrat 中的 Docker
我不完全确定 Docker 是否足以用于 R 开发,或者我应该与 Packrat 一起使用。我读过几篇文章说 docker 就足够了。唯一支持这种说法的地方是这篇文章。但是,由于 git2r 安装中的错误,我无法构建该示例。
我的总体目标是完全控制我使用的包版本,因此即使以后升级包,我的分析仍然有效。