问题标签 [fselector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 错误:protect():特征提取时保护堆栈溢出
我有一个包含 4755 行和 27199 列的数据框。它实际上是一个文档术语矩阵,我正在尝试使用“FSelector”包执行特征选择。下面是一些代码:
每次我这样做我都会得到一个错误
我有一个 24GB 的 RAM,数据帧的大小约为 500Mb。所以我不知道问题是什么,我该如何解决?
r - R中OneR算法的过程
我使用了 FSelecter 包的 OneR 算法来找到错误率最低的属性。我的班级属性是是和否。我的属性特征也是yes和no。
OneR 算法的结果是:
但是,如果我在同一数据帧上使用相关函数,则最佳属性的错误率低于使用 oneR 函数获得的属性。
谁能告诉我,为什么 OneR 算法没有将 CO4 属性显示为最佳属性(基于错误率)?
OneR 算法使用哪些标准?
---除了更好地理解我的问题---
完整的数据太大而无法显示。我新建了一个数据池,效果一样
延迟 - OR1 - CO4 ..
1 ---------1--------1--
0 ---------0--------0--
0 ---------0--------1--
1 ---------0--------1--
0 ---------0--------0--
1 ---------0--------1--
0 ---------0--------0--
1 ---------0--------1--
显示单个属性的错误率的代码:
打印(表(datapool_stackoverflow$DELAYED,datapool_stackoverflow$OR1))
OneR函数的代码:
库(FSelector)
oneR_stackoverflow <- oneR(延迟~., datapool_stackoverflow)
subset_stackoverflow <- cutoff.k(oneR_stackoverflow, 2)
打印(子集堆栈溢出)
相关代码:
cor(as.numeric(datapool_stackoverflow$DELAYED),as.numeric(datapool_stackoverflow$OR1))
在这种情况下,结果是:
错误率:OR1 矩阵:------ 0(属性特征)-- 1(属性特征
0(类):----------4------------------------ --0
1(班级:---------------------3------------ -1
曼努埃尔计算的错误率:3(0 + 3)
错误率:CO4 矩阵:------ 0(属性-特征)-- 1(属性特征)
0(类):----------3---------- --1
1(等级:------------------------0---------- -4
错误率:1(1 + 0)
相关性:属性 OR1:0.377 属性 CO4:0.77
OneR:“OR1”、“CO4”
为什么,OneR 函数提供 OR1 属性作为分类的最佳属性?
r - 在 R 中使用 info.gain 中的公式
在 FSelector information.gain 函数的函数定义中,
信息.增益(公式,数据)
公式的目的到底是什么?我正在尝试使用该功能为分类任务进行特征选择。在我在网上看到的几个例子中,这个公式似乎定义了类标签和数据集中的特征之间的某种关系。但是,如果是这种情况,我不知道特征和标签之间的确切线性关系,因为我正在执行分类任务,那么公式是什么?
r - “rpart”对象错误的无效预测
我正在使用此 CRAN 文档 ( https://cran.r-project.org/web/packages/FSelector/FSelector.pdf ) 第 4 页中的最佳首次搜索的确切代码,该文档使用 iris 数据集。它适用于 iris 数据集,但不适用于我自己的 ndata。我的数据有 37 个预测变量(数值和分类),第 38 列是类预测。
我收到错误:
我认为来自这一行:
我已经尝试过调试和回溯,但我不明白为什么会发生这个错误(就像我说的,虹膜数据无法重现)。
这是我的一些数据,因此您可以看到我正在使用的内容:
java - 无法在 Mac OS X El Capitan 上的 R 中使用 FSelector 包
我现在使用的是 OS X El Capitan 版本 10.11.3。
当我尝试library(FSelector)
在 R 中使用时,会弹出错误消息:
此外,当我尝试library(Rweka)
和library(Rwekajars)
.
为什么会发生这种情况以及如何解决?
r - 如何使用 FSelector 包正确计算所有权重?
我正在尝试使用 FSelector 包计算 R 中数据集的权重。数据取自这个位置。
我无法计算所有的重量。当我使用该gain.ratio
函数时,Age
权重为 NaN。当我改用chi.squared
函数时,两者Age
和A/G Ratio
都是零。当我从中获取前 200 个元素data
并计算权重时,只有其中五个是正确计算的,其他是零或 NaN。
我尝试从数据中删除错误的元素,data <- na.omit(data)
但并没有改变结果。
如何正确计算权重?
以下是重量打印的示例。
r - 如何在 R 中对 SparseMatrix 矩阵进行特征选择
我有超过 20k 个特征、3m 个对象和超过 3k 个类的文本分类问题。数据非常稀疏。我在 R. sparseMatrix 对象中的数据矩阵上编写了程序。如何选择此数据的特征?我找到了 FSelector 包,但它不适用于 sparseMatrix,只有 data.frame,由于内存限制,我无法转换数据。
r - 使用卡方检验在文档特征矩阵中选择特征
我正在使用自然语言处理进行短信挖掘。我使用quanteda
包来生成文档特征矩阵(dfm)。现在我想使用卡方检验进行特征选择。我知道已经有很多人问过这个问题了。但是,我找不到相关的代码。(答案只是给出了一个简短的概念,如下所示:https ://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-feature-selection-在-r )
我了解到我可以chi.squared
在FSelector
包中使用,但我不知道如何将此函数应用于 dfm 类对象(trainingtfidf
如下)。(在手册中显示,它适用于预测变量)
谁能给我一个提示?我很感激!
示例代码:
r - 关于使用稀疏矩阵作为 Fselector 包中的输入
我正在使用 information.gain()、chi.squared() 和增益。Fselector 包提供的用于特征选择的 Ratio() 函数。
所有这些函数都接受数据框作为输入,因为我使用维度为 200161(行)、323(列)数据集的矩阵,出现错误
我有 xeon 前处理器,有 8 GB RAM,在将内存限制扩展到 max 后,使用命令进行断言
结果为8026,这也不够
为了提高内存效率,我已将数据帧转换为稀疏矩阵
现在的问题是,我们能否使用稀疏矩阵作为函数 information.gain()、chi.squared() 和 gain.ratio() 的输入
请任何人对此提供帮助,
提前致谢
r - 如何通过使用 R 语言中的 FSelector 信息增益设置阈值来仅选择最佳特征?
我已经通过在 R 中使用 FSelector 包在 R 中完成了信息增益特征选择
现在,我需要根据attr_importance 从中选择最佳功能。如何根据阈值选择R中的最佳特征以及如何设置阈值?