我目前正在研究一个问题,在该问题中我有调查响应,这是由市场研究机构进行的一项调查。该调查衡量了对产品服务覆盖率的看法。调查规模:0-100。样本大小 4K。
手头的任务是找出受访者的调查反应与他们在公司的支出之间的相关性,也就是说,高感知客户的支出高,反之亦然。
我的做法:
由于规模很大,我首先将其缩小到1-10,即1中的0-10%,2中的11-20%......等等。然后我在新的规模和支出上使用了单变量线性回归。
缩放后,我将调查规模视为连续的。
问题:
1) 处理比例(缩放到 1 -10 后)连续的假设是对还是错?
2)是否需要规范化?当我对数据进行标准化时,系数不能被解释为对商务人士更有意义的美元值。如果我在不进行归一化的情况下运行分析会有什么影响?
3)另外,如果一个是调查响应,另一个是支出,那么这里的标准化是否正确?