0

我做了一些挖掘,但我对拉丁超立方体采样的概念仍然很陌生。我发现了这个使用pacakge的例子:lhs

set.seed(1)
randomLHS(5,2)

           [,1]       [,2]
[1,] 0.84119491 0.89953985
[2,] 0.03531135 0.74352370
[3,] 0.33740457 0.59838122
[4,] 0.47682074 0.07600704
[5,] 0.75396828 0.35548904

据我了解,结果矩阵中的条目是 5 个点的坐标,将用于确定两个连续变量的组合。

我正在尝试使用 5 个分类变量进行模拟。每个变量的级别数范围为 2 到 5。这导致 2 x 3 x 4 x 2 x 5 = 240 个场景。我想尽可能地减少它,所以我正在考虑使用拉丁超立方体,但我对如何进行感到困惑。任何想法将不胜感激!

另外,您是否知道任何解释如何分析拉丁超立方体采样结果的好资源?

4

1 回答 1

3

出于以下原因,我建议坚持使用 240 个设计点的全因子。

  1. 哎呀,这就是计算机的用途——自动化繁琐的计算任务。240个设计点不算什么,你是在电脑上做的!您可以使用嵌套循环遍历各个级别轻松地自动化该过程,每个因素一个循环。不要忘记用于复制的最内层循环。如果每次模拟花费的时间超过一两分钟,请在多个内核或多台机器上进行拆分。我的一个学生最近为他的硕士论文工作做了这个,并且能够在一个周末进行超过一百万个模拟实验。

  2. 对于连续因子,您通常假设响应曲面具有某种程度的平滑度,并基于回归推断/投影相邻设计点之间的响应。对于分类数据,推断对于排除的因素组合无效,交互作用很可能是主要影响。除非您进行全阶乘,否则您忽略的组合可能是最重要的组合,也可能不是最重要的组合,但关键是您永远不会知道您是否没有在那里采样。

通常,您使用的分析工具与您进行任何其他类型的采样时使用的分析工具相同——回归、逻辑回归、方差分析、分区树……对于分类因素,我是分区树的粉丝。

于 2015-07-03T16:36:56.230 回答