-1

在此处输入图像描述我有一个不平衡的数据集,其中包含电影销售数据以及几年来电影的一些特征。在其间的特定年份,社会中发生了一种治疗(事件)。现在,我想与 r 检查这种处理是否影响了具有某些特殊特征的电影的销售。我的问题是,当我检查了很多 DiD 和 FE 模型时,治疗前后的治疗人群是相同的,而我的情况并非如此。因为活动之前上映的电影和活动之后上映的电影完全不同。我正在寻找电影角色在其销售中的系数的任何变化。请您指导我应该使用哪种型号或 r 包?

4

1 回答 1

0

您可以使用包中的线性模型stats并使用公式

lm(sales ~ treatment + characteristic1 + characteristic2 + characteristic n)

这将划分由您的每个变量(即特征)解释的销售差异。但是,如果不知道您的数据集是什么样子,就很难回答您的问题。对于一个简单的线性模型,您的残差需要是正态分布的,并且方差是均匀的,以及其他假设。

附录 1 由于您的治疗是影响 2011 年过去美国所有电影的事件,您应该将其编码为 0/1 变量,例如

data.frame$treatment<-ifelse(year>=2011 & production_country=='United States', 1, 0)

然后,如果您对处理对某些其他特征的系数的影响感兴趣,那么您对处理与相关特征之间的相互作用感兴趣。这将*像这样编码:

lm(sales ~ treatment * characteristic of interest)

重要的是事先仔细考虑哪个特征应该受到治疗的影响,而不是测试每一个可能的组合(我不知道你有多少单独的电影(即你的n有多大)但是如果你把交互在每个术语上,您可能很难估计系数)。

此外,您应该考虑数据的结构。如果您有来自同一国家的多部电影,以及同一年的多部电影,并且属于同一类型,这些因素可能会影响销售,因此将它们包含在您的模型中很重要(如果它们不是您感兴趣的变量,如果有很多类别,您可以将它们作为随机效应包含在内)。例如,电影上映的那一年可能会影响销量,因为那是经济衰退的一年,或者因为发生了大流行或任何其他我们无法完全掌握的原因。这是我们何时将年份编码为随机效应的一个很好的例子(尽管对于什么应该或不应该用作随机效应以及何时应该将其用作固定效应而不是随机效应存在很多不同意见,你可以读到这个在这里)。您可以使用lme4nlme包对模型中的随机效果进行编码。我喜欢lme4随机效应编码的简单性,并且因为它不返回 p 值。为了让您开始,以下是您将如何编写随机效应模型的代码lme4

library(lme4)
lmer(sales ~ genre * treatment + (1|Production Year))

让我们知道它是如何工作的!

于 2020-10-14T23:38:44.507 回答