Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试评估两个变量之间的相关性,但我的原始数据有很多需要消除的背景噪音。特别是,我只想保留显示正斜率的数据部分。我如何摆脱其他一切?
我假设您的数据包含一些与您感兴趣的数据点数量非常不同的异常值,这些就是您所说的“噪声”。记住这个假设,我要么:
a) 将它们从我的数据中完全删除,并说明原因(这可能需要进行一些调查)。
b) 添加一个名为“Outlier”之类的变量,并将异常值的值设为 1,将其他值设为 0。然后,您可以根据该变量对分析进行分层或过滤数据。同样,您需要注意为什么您认为那些被标记为异常值的人不属于主要数据点的一部分。