0

我有一个包含大约 200 列和 100 万行的大型数据集。我有一个治疗组,我正在尝试使用基于大约 15 个不同变量的倾向匹配评分创建一个对照组。

我有两个问题在网上找到了相互矛盾的答案,如果您能帮助我,我将不胜感激。

1) 如何组织数据以最好地运行匹配过程?我的数据混合了数字、字符和因子(一些是有序的,另一些不是)变量,我在网上看到有人说 MatchIt 程序使用字符变量运行分析,而另一些人说它不适用于“最近”功能,但与其他功能一起使用。那么,我是否应该努力将所有内容转换为数字或因子(我不确定这是否可能),或者我可以使用我的变量运行 MatchIt 吗?

2) 函数 MatchIt 是否已更新为读取未用于匹配函数的变量中的 NA?我看过一些旧帖子说 MatchIt 需要一个完整的数据集,即使是那些没有用于匹配的变量,但这些帖子也说它可能会被修复。还是这样吗?

谢谢

4

1 回答 1

1

1) 除了数据类型之外,您应该问自己的问题是,将分类数据赋予倾向得分设置有什么意义。倾向得分基于观察之间的距离,计算分类属性之间的距离显然很困难。因此,即使从技术上讲,MatchIt确实支持其他类型,但数字特征是唯一真正明智的数据输入。您可以选择丢弃数据中的分类数据或将其转换为数字(通过创建虚拟变量和对序数特征进行数字编码)。或者,您可以保留分类特征并使用函数的exact参数对这些特征施加精确匹配matchit(请注意,在这种情况下,您不再真正使用倾向得分匹配......)。

2)这个问题在当前的3.0.2版本还没有解决,显然很烦人。。

于 2020-01-11T22:53:26.547 回答