问题标签 [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 R 中的“步骤”方法中获取选定的变量
我正在使用“步骤”功能从我的数据中删除不必要的/虚假变量。我正在使用以下代码:
我如何知道“步骤”方法选择的最终变量?
编辑:我正在使用以下内容来查找相同的内容。我正在寻找任何其他更简单的方法。
machine-learning - 相关特征和分类准确度
想请教大家一个问题,相关特征(变量)如何影响机器学习算法的分类准确率。对于相关特征,我指的是它们之间的相关性,而不是与目标类别(即几何图形的周长和面积或教育水平和平均收入)之间的相关性。在我看来,相关特征会对分类算法的准确性产生负面影响,我想说是因为相关性使得其中一个变得无用。真的是这样吗?问题是否随分类算法类型而改变?任何关于论文和讲座的建议都非常欢迎!谢谢
content-management-system - CMS 最重要的功能
假设有一个新的 CMS 出来了,你可以选择和评价那里的功能。选择其中的 5 个。第一名是最重要的,最后一名是不太重要的。
- 就地编辑(无管理面板)
- 全局内容版本控制(文章、博客条目、任何模块内容项等)
- 单页应用程序作为结果(不重新加载页面,纯 ajax/web-sockets)
- 易于扩展(控制反转,生产模块编译和安装)
- 非 IT 人员易于理解的简单概念
- 导入/导出所有站点数据(包括第 3 方模块)
- 任何数据库支持(MSSql、MySQL、PostgreSQL、SQL CE...)
- 简单的模板系统(无逻辑模板,例如dust.js)
- 系统级 web-sockets 支持(服务、浏览器和服务器之间的数据传输、服务器的实时数据推送)
- 大量预建模块和功能
- 开源而不是付费(即使质量可能更低)
- 我宁愿为它付费(合理的金额),但让它没有错误、经过全面测试和全面支持
有能力购买 CMS 作为 SaaS
您必须添加的任何内容:)
非常感谢您的反馈!
xml - 是否可以使用 SVM 来学习输入“特征矩阵”而不是“特征向量”的训练样本?
是否可以使用 SVM 来学习输入为“特征矩阵”而不是“特征向量”的训练样本?我需要通过将每个文档表示为特征矩阵来对 XML 文档进行分类。通常,特征向量用于训练 SVM 进行文本分类。但是,将 XML 文档表示为特征向量可能会导致结构信息丢失!
提前致谢!
analysis - 情感 分析 , 特征 选择
我想知道分析情绪的每个步骤有哪些合适的工具:删除停用词、词干提取、文本的向量表示、特征选择、分类、如何从文本的向量表示传递到特征选择,是否有任何步骤可以遵循和描述这些步骤的示例
r - R中的SVM特征选择
我正在训练一个 SVM 分类器。现在,我有大约 4000 个功能,但其中很多都是多余的/没有信息的。我想将模型中的特征减少到大约 20-50 个。我想使用贪婪的爬山,每次减少1个特征。移除的特征应该是最不重要的特征。训练一个 SVM 后,如何获得特征重要性的排名?如果我在 R 中使用 libsvm,我如何获得每个功能的权重,或其他类似类型的重要性指标?谢谢!
machine-learning - 特征选择
我有以术语为维度的文档术语数据。我必须根据条款执行特征选择,并且我打算使用互信息作为执行特征选择的度量。我的疑问是,在计算所有可能对之间的互信息之后要做什么?我应该设置一个阈值并选择落在阈值内的所有项吗?
numpy - 处理具有数字属性的标称值的策略
我正在使用一个数据集,该数据集主要包含来自 SFDC 的名义值(例如 EE 名称、职务、角色、潜在客户来源、客户名称等),并试图将这些特征与销售线索是否是布尔类相关联转换为销售联系人。
我想通过一些基本的特征选择算法来运行这些数据,但大多数只需要数值。我可以使用布尔映射方案将每个独特的分类映射到一个新的字段(特征),但是我会生成大量的新特征,我不确定这是否会产生有意义的输出。诚然,最好的解决方案可能是通过决策树运行数据,但想看看社区中其他人是否提出了其他策略来处理已在现实世界中成功使用的大多数名义数据的数据集应用程序。
我正在使用 python 和 scipy/numpy/pandas/scikit-learn 进行分析。
javascript - OpenLayers 点击选中的特征触发函数
我正在使用 OpenLayers 使用集群策略在地图上绘制点要素。
我还使用 SelectFeature 来选择地图上的点要素。
当用户选择一个聚类特征时,会出现一个弹出窗口,其中包含要选择的包含特征的列表。当他选择其中之一时,弹出窗口关闭并且集群特征保持选中状态。
现在问题来了。我希望能够单击集群功能,以便再次出现弹出窗口。我唯一能做的就是设置 toggle:true 但随后该功能被取消选择。
当用户单击所选功能时,有没有办法触发事件?
提前谢谢,illy
image-processing - 检索“视觉相似”图像的概念查询:密集 SIFT 或其他描述符?
我发布了我的数据集的 3 张图像,以显示我的图像在视觉上的外观:
http://s1306.photobucket.com/user/Bidisha_Chakraborty/library/?page=1
我正在使用 VLFFeat DSIFT 实现。我使用每个描述符 4 个方向而不是 8 个。所以在我的情况下,它是 64 维向量而不是 128。我使用图像的原始比例,因为我的图像数据最初是从固定距离获取的。我以 4/8 像素的间隔密集计算描述符。我通过将窗口大小从 80*80 像素更改为 20*20 像素进行了几次实验。我对不同数量的聚类中心进行了聚类方法。最后,我使用了推土机的距离来计算相似度指标。在对窗口大小、字数进行各种参数调整后,我发现即使我有像 1 和 3 这样几乎相似的图像,距离度量也表明图像 1 与图像 2 比图像 1 与图像 3 更相似。
我做了主成分分析来查看数据的方差。我希望图像 1 和图像 2 具有分离的簇,而图像 1 和 3 具有重叠的簇。由于我绘制了前 3 个维度,而这 3 个维度占数据的比例不到 30%,我确信包括所有维度(我当然无法可视化)会产生更差的结果。
- 我是否应该得出结论认为 SIFT 不是我的应用程序的最佳选择,或者我错过了一些东西。我已经为这些使用了 GLCM,但没有得到好的结果。非常欢迎对任何其他功能空间提出任何建议。感谢您的任何见解。