我有一个包含大约 200 列和 100 万行的大型数据集。我有一个治疗组,我正在尝试使用基于大约 15 个不同变量的倾向匹配评分创建一个对照组。
我有两个问题在网上找到了相互矛盾的答案,如果您能帮助我,我将不胜感激。
1) 如何组织数据以最好地运行匹配过程?我的数据混合了数字、字符和因子(一些是有序的,另一些不是)变量,我在网上看到有人说 MatchIt 程序使用字符变量运行分析,而另一些人说它不适用于“最近”功能,但与其他功能一起使用。那么,我是否应该努力将所有内容转换为数字或因子(我不确定这是否可能),或者我可以使用我的变量运行 MatchIt 吗?
2) 函数 MatchIt 是否已更新为读取未用于匹配函数的变量中的 NA?我看过一些旧帖子说 MatchIt 需要一个完整的数据集,即使是那些没有用于匹配的变量,但这些帖子也说它可能会被修复。还是这样吗?
谢谢