0

我目前正在研究一个问题,在该问题中我有调查响应,这是由市场研究机构进行的一项调查。该调查衡量了对产品服务覆盖率的看法。调查规模:0-100。样本大小 4K。

手头的任务是找出受访者的调查反应与他们在公司的支出之间的相关性,也就是说,高感知客户的支出高,反之亦然。

我的做法:
由于规模很大,我首先将其缩小到1-10,即1中的0-10%,2中的11-20%......等等。然后我在新的规模和支出上使用了单变量线性回归。
缩放后,我将调查规模视为连续的。

问题:
1) 处理比例(缩放到 1 -10 后)连续的假设是对还是错?

2)是否需要规范化?当我对数据进行标准化时,系数不能被解释为对商务人士更有意义的美元值。如果我在不进行归一化的情况下运行分析会有什么影响?

3)另外,如果一个是调查响应,另一个是支出,那么这里的标准化是否正确?

4

1 回答 1

0

问题: 1) 错误 通常当一个连续变量被重新编码时,它是使其离散。那么线性回归不适合您的情况。

2) 标准化是为了减少数据集中异常值的影响。通过在不规范化数据的情况下执行分析,您将极值作为模型的信息。

3)这取决于你之后想做什么......我想说在进行数据分析时保持每件事都平等总是更好。

于 2018-01-30T15:20:11.350 回答