0

我遇到了一个在线数据挖掘课程项目

http://www.kdnuggets.com/data_mining_course/assignments/final-project.html

数据是具有 7000 个特征作为基因的样本。每个基因都与一个值相关联。有些值是负数。数据看起来像这样:

SNO "U48730_at" "U58516_at" "U73738_at" "X06956_at" "X16699_at" "X83863_at"

X1“27”“161”“0”“34”“2”“116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21 “0”“142”
X4“27”“163”“-1”“16”“-1”“134”
X5“41”“138”“1”“29”“1”“153”
X6“55 ""107""-1""17""0""152"
X7“27”“99”“0”“57”“1”“139”
X8“2”“137”“-1”“19”“-3”“213”
X9“-5”“161”“- 3” “23” “2” “193”
X10 “0” “110” “-3” “7” “-1” “208”X9“-5”“161”“-3”“23”“2”“193” X10“0”“110”“-3”“7”“-1”“208”X9“-5”“161”“-3”“23”“2”“193” X10“0”“110”“-3”“7”“-1”“208”
X11“-7”“67”“1”“2”“-2”“149”
X12“4”“93”“3”“37”“2”“266”
X13“2”“75”“3” “30”“6”“205”

教授建议学生先做“数据清洗”。原句是对训练和测试数据都设置阈值,最小值为 20,最大值为 16,000。

我首先想到的是搜索每个基因,如果有一个值超出范围,那么就把这个基因作为一个特征丢弃。然而,似乎对于每个基因,都必须有一个样本值超出界限。

“阈值此数据”我应该怎么做?是这样的,如果值低于 20,则将其设置为 20,或者如果值高于 16000,则将其设置为 16000?

提前致谢!

4

1 回答 1

0

我认为你的最后一个假设是正确的;20..16000 范围之外的值应设置为这些值。

如果每条数据都有超出该范围的值,那么排除它可能没有意义。

尝试一下,看看会发生什么。

于 2013-10-14T02:55:34.900 回答