问题标签 [fselector]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
4303 浏览

r - 错误:protect():特征提取时保护堆栈溢出

我有一个包含 4755 行和 27199 列的数据框。它实际上是一个文档术语矩阵,我正在尝试使用“FSelector”包执行特征选择。下面是一些代码:

每次我这样做我都会得到一个错误

我有一个 24GB 的 RAM,数据帧的大小约为 500Mb。所以我不知道问题是什么,我该如何解决?

0 投票
3 回答
601 浏览

r - R中OneR算法的过程

我使用了 FSelecter 包的 OneR 算法来找到错误率最低的属性。我的班级属性是是和否。我的属性特征也是yes和no。

OneR 算法的结果是:

但是,如果我在同一数据帧上使用相关函数,则最佳属性的错误率低于使用 oneR 函数获得的属性。

谁能告诉我,为什么 OneR 算法没有将 CO4 属性显示为最佳属性(基于错误率)?

OneR 算法使用哪些标准?

---除了更好地理解我的问题---

完整的数据太大而无法显示。我新建了一个数据池,效果一样

延迟 - OR1 - CO4 ..

1 ---------1--------1--

0 ---------0--------0--

0 ---------0--------1--

1 ---------0--------1--

0 ---------0--------0--

1 ---------0--------1--

0 ---------0--------0--

1 ---------0--------1--

显示单个属性的错误率的代码:

打印(表(datapool_stackoverflow$DELAYED,datapool_stackoverflow$OR1))

OneR函数的代码:

库(FSelector)

oneR_stackoverflow <- oneR(延迟~., datapool_stackoverflow)

subset_stackoverflow <- cutoff.k(oneR_stackoverflow, 2)

打印(子集堆栈溢出)

相关代码:

cor(as.numeric(datapool_stackoverflow$DELAYED),as.numeric(datapool_stackoverflow$OR1))

在这种情况下,结果是:

错误率:OR1 矩阵:------ 0(属性特征)-- 1(属性特征

0(类):----------4------------------------ --0

1(班级:---------------------3------------ -1

曼努埃尔计算的错误率:3(0 + 3)

错误率:CO4 矩阵:------ 0(属性-特征)-- 1(属性特征)

0(类):----------3---------- --1

1(等级:------------------------0---------- -4

错误率:1(1 + 0)

相关性:属性 OR1:0.377 属性 CO4:0.77

OneR:“OR1”、“CO4”

为什么,OneR 函数提供 OR1 属性作为分类的最佳属性?

0 投票
1 回答
3380 浏览

r - 在 R 中使用 info.gain 中的公式

在 FSelector information.gain 函数的函数定义中,

信息.增益(公式,数据)

公式的目的到底是什么?我正在尝试使用该功能为分类任务进行特征选择。在我在网上看到的几个例子中,这个公式似乎定义了类标签和数据集中的特征之间的某种关系。但是,如果是这种情况,我不知道特征和标签之间的确切线性关系,因为我正在执行分类任务,那么公式是什么?

0 投票
1 回答
17827 浏览

r - “rpart”对象错误的无效预测

我正在使用此 CRAN 文档 ( https://cran.r-project.org/web/packages/FSelector/FSelector.pdf ) 第 4 页中的最佳首次搜索的确切代码,该文档使用 iris 数据集。它适用于 iris 数据集,但不适用于我自己的 ndata。我的数据有 37 个预测变量(数值和分类),第 38 列是类预测。

我收到错误:

我认为来自这一行:

我已经尝试过调试和回溯,但我不明白为什么会发生这个错误(就像我说的,虹膜数据无法重现)。

这是我的一些数据,因此您可以看到我正在使用的内容:

0 投票
1 回答
393 浏览

java - 无法在 Mac OS X El Capitan 上的 R 中使用 FSelector 包

我现在使用的是 OS X El Capitan 版本 10.11.3。

当我尝试library(FSelector)在 R 中使用时,会弹出错误消息:

此外,当我尝试library(Rweka)library(Rwekajars).

为什么会发生这种情况以及如何解决?

0 投票
1 回答
782 浏览

r - 如何使用 FSelector 包正确计算所有权重?

我正在尝试使用 FSelector 包计算 R 中数据集的权重。数据取自这个位置

我无法计算所有的重量。当我使用该gain.ratio函数时,Age权重为 NaN。当我改用chi.squared函数时,两者AgeA/G Ratio都是零。当我从中获取前 200 个元素data并计算权重时,只有其中五个是正确计算的,其他是零或 NaN。

我尝试从数据中删除错误的元素,data <- na.omit(data)但并没有改变结果。

如何正确计算权重?

以下是重量打印的示例。

0 投票
1 回答
534 浏览

r - 如何在 R 中对 SparseMatrix 矩阵进行特征选择

我有超过 20k 个特征、3m 个对象和超过 3k 个类的文本分类问题。数据非常稀疏。我在 R. sparseMatrix 对象中的数据矩阵上编写了程序。如何选择此数据的特征?我找到了 FSelector 包,但它不适用于 sparseMatrix,只有 data.frame,由于内存限制,我无法转换数据。

0 投票
1 回答
1968 浏览

r - 使用卡方检验在文档特征矩阵中选择特征

我正在使用自然语言处理进行短信挖掘。我使用quanteda包来生成文档特征矩阵(dfm)。现在我想使用卡方检验进行特征选择。我知道已经有很多人问过这个问题了。但是,我找不到相关的代码。(答案只是给出了一个简短的概念,如下所示:https ://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-feature-selection-在-r )

我了解到我可以chi.squaredFSelector包中使用,但我不知道如何将此函数应用于 dfm 类对象(trainingtfidf如下)。(在手册中显示,它适用于预测变量)

谁能给我一个提示?我很感激!

示例代码:

0 投票
1 回答
62 浏览

r - 关于使用稀疏矩阵作为 Fselector 包中的输入

我正在使用 information.gain()、chi.squared() 和增益。Fselector 包提供的用于特征选择的 Ratio() 函数。

所有这些函数都接受数据框作为输入,因为我使用维度为 200161(行)、323(列)数据集的矩阵,出现错误

我有 xeon 前处理器,有 8 GB RAM,在将内存限制扩展到 max 后,使用命令进行断言

结果为8026,这也不够

为了提高内存效率,我已将数据帧转换为稀疏矩阵

现在的问题是,我们能否使用稀疏矩阵作为函数 information.gain()、chi.squared() 和 gain.ratio() 的输入

请任何人对此提供帮助,

提前致谢

0 投票
1 回答
547 浏览

r - 如何通过使用 R 语言中的 FSelector 信息增益设置阈值来仅选择最佳特征?

我已经通过在 R 中使用 FSelector 包在 R 中完成了信息增益特征选择

现在,我需要根据attr_importance 从中选择最佳功能。如何根据阈值选择R中的最佳特征以及如何设置阈值?