0

我正在尝试使用 FSelector 包计算 R 中数据集的权重。数据取自这个位置

data = read.csv("filepath/Indian Liver Patient Dataset (ILPD).csv")
names(data)<-c("Age","Gender", "TB", "DB", "Alkphos", "Sgpt", "Sgot", "TP", "ALB", "A/G Ratio", "Selector")
library(FSelector)
weights <- gain.ratio(Selector ~., data)
print(weights)

我无法计算所有的重量。当我使用该gain.ratio函数时,Age权重为 NaN。当我改用chi.squared函数时,两者AgeA/G Ratio都是零。当我从中获取前 200 个元素data并计算权重时,只有其中五个是正确计算的,其他是零或 NaN。

我尝试从数据中删除错误的元素,data <- na.omit(data)但并没有改变结果。

如何正确计算权重?

以下是重量打印的示例。

Age             0.0000000
Gender          0.1304229
TB              0.3281865
DB              0.3238010
Alkphos         0.2965842
Sgpt            0.2734633
Sgot            0.3120432
TP              0.2504747
ALB             0.3051724
A/G Ratio       0.0000000
4

1 回答 1

2

零是特征重要性的有效值——这意味着该特征没有关于分类目标的任何信息。NaN 是由 FSelector 中的错误引起的,如果特征不携带信息,则该错误会除以 0。我已经在开发版本中解决了这个问题。

名称“A/G 比率”不是有效的 R 标识符,因此会导致某些方法出现问题。在修复此问题并安装 FSelector 开发版本的代码下方。

data = read.csv("Indian\ Liver\ Patient\ Dataset\ (ILPD).csv")
names(data)<-c("Age","Gender", "TB", "DB", "Alkphos", "Sgpt", "Sgot", "TP", "ALB", "AGRatio", "Selector")

library(devtools)
install_github("larskotthoff/fselector")

library(FSelector)
weights = gain.ratio(Selector~., data)
print(weights)

weights = chi.squared(Selector~., data)
print(weights)

输出:

        attr_importance
Age          0.00000000
Gender       0.01539699
TB           0.09711392
DB           0.11547683
Alkphos      0.06593879
Sgpt         0.06566624
Sgot         0.07667241
TP           0.08836895
ALB          0.07766682
AGRatio      0.15403574

        attr_importance
Age           0.0000000
Gender        0.1304229
TB            0.3281865
DB            0.3238010
Alkphos       0.2965842
Sgpt          0.2734633
Sgot          0.3120432
TP            0.2504747
ALB           0.3051724
AGRatio       0.0000000
于 2016-06-01T17:34:01.540 回答