问题标签 [svmlight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何格式化 IRIS 数据集以输入到 SVM-Light 库?
我正在尝试使用SVM-Light 库对 IRIS 数据集进行训练和分类。这是我正在使用的 python 包装器。我目前正在关注页面上的示例,但我不确定如何正确格式化 IRIS 数据以进行输入。IRIS 数据集中的示例行如下所示5.0,3.6,1.4,0.2,Iris-setosa
。
svm - 用于 svm 分类的分组样本
我正在尝试将一些样本分为两个不同的类别。每个样本包含几个特征。但问题是这些样本属于特定组,每个特征都代表该特定组的某些属性。通常我的数据如下所示:
这些是两组数据的样本,每组只有一个(+1)类,其余为(-1)。每组有相同大小的 10 个样本。我的问题是,我如何使用考虑这种分组的 SVM 分类器。或者,如果 SVM 不是最佳选择,您有什么建议?
database - 如何将 Svmlight 数据转换为数据库
我使用的是 Svmlight 格式的数据(你可能知道它是 libsvm)
这是格式
我试图创建一个 SQL 数据库来存储它,问题是格式是稀疏的,并且在常规数据库中存储数据将非常耗时,如果我以稀疏格式存储它(每行的字符串)我不能按列内容查询东西(例如->我需要查询所有包含特征值的行#)
我正在寻找一种直接的方式将其转换为数据库,从而使过滤和查询更快、更简单。
任何人都可以向我指出一个合适的数据库解决方案,如果可能的话,一个已经制作的用于转换的实用程序?
谢谢!
python - python sklearn 读取非常大的 svmlight 文件
我正在使用带有 svmlight 的 python 2.7 来存储和读取一个非常大的 svmlight 格式文件。
我正在使用
该文件太大而无法存储在内存中。我正在寻找一种无需提前拆分文件即可批量迭代文件的方法。
目前我发现的最好方法是使用终端命令 split 拆分 svmlight 文件。然后读取我创建的部分文件。
我发现读取大文件的一个好方法是逐行读取,以免内存溢出。
如何使用 svmlight 格式的文件执行此操作?
谢谢!
python - pyspark MLUtils saveaslibsvm 仅保存在 _temporary 下而不保存在 master 上
我使用 pyspark
并使用 MLUtils saveaslibsvm在标签点上保存 RDD
它可以工作,但将这些文件保留在 /_temporary/ 下的所有工作节点中的文件数量。
没有抛出错误,我想将文件保存在正确的文件夹中,最好将所有输出保存到一个 libsvm 文件中,该文件将位于节点或主服务器上。
那可能吗?
编辑 +++++++++++++++++++++++++++++++++++++++++++++++++++++ ++++++++++++++++++++ 无论我做什么,我都无法使用 MLUtils.loadaslibsvm() 从我用来保存它的同一路径加载 libsvm 数据. 也许写文件有问题?
python - Python h2o svmlight 数据
我有一个 svmlight 格式的文件,其值如下:
92.91 18256731:1 71729421:1 72329637:1 83328561:1 118265976:1 134892759:1 198163358:1 352348616:1 526943048:1
5.30 102156934:1 134892759:1 198163358:1 254112843:1 262373758:1 512748316:1 526943048:1
22.00 32172600:1 72329637:1 118265976:1 134892759:1 198163358:1 411824213:1 443226486:1 445371412:1 526943048:1
我正在尝试在 h2o 中使用h2o.import_file(fname.svmlight)
h2o 是否支持高维稀疏二元特征?
我是否需要转换某些索引中的散列值才能使其正常工作?
scikit-learn - 使用 libSVM 工具执行多类分类
我正在尝试使用libSVM
库对卫星图像进行分类。我想要的是显示分类图像并保存它,而不仅仅是在我的终端上获得准确的结果。我已经从训练数据集(如下所示)中提取了像素值,并使用脚本csv2libsvm
(https://github.com/zygmuntz/phraug/blob/master/csv2libsvm.py)将我的数据以正确的格式用于libsvm
. 图像中有 4 个不同的类要分类。我的卫星图像和训练数据如下所示。
我遵循的步骤基于以下教程https://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf。
拆分训练和测试数据(70% 训练和 30% 测试)。
svm - subset.py 数据集 12000 training.tr testing.te
训练模型
svm-train training.tr
做出预测
svm-predict testing.te training.tr.model 分类输出
这个分类的准确率是95%,非常棒。
我现在真正感兴趣的是显示分类图像。所以,我需要从包含分类标签的 csv 文件中构建我的分类图像。这就是问题所在,不知道该怎么做。我所做的(但没有工作)如下:
我将生成的 csv 文件导入
lbSVM
到python
usingcsv
模块中。我试图将 csv 文件重塑为我的图像的形状
我的代码如下所示:
要分类的图像大小为(303 x 498),生成的预测类别大小libsvm
为 1807。因此,我在尝试重塑libsvm
结果时得到的错误,我得到以下错误。
ValueError: cannot reshape array of size 1807 into shape (303,498)
这个错误是有道理的。我有 1907 行并尝试对其进行重塑以匹配我的初始图像,这显然是不可能的。
那么,如何显示我的分类图像?我达到了 95% 的准确率,但还没有找到查看分类结果的方法。我虽然libsvm
可能有一个将分类结果导出到 tiff 的选项,但它没有。
我将不胜感激任何帮助、建议或提示
classification - Mallet 中正确的 svmlight 输入格式是什么?
我正在使用Mallet
输入SVMLight
格式来classification
使用NaiveBayes
分类器。但我得到一个NumberFormatException
. 我想知道在使用 SVMLight 时如何使用字符串功能。正如我在指南1中所读到的,这些特征也可以是字符串。
谁能帮助我的代码或输入有什么问题?
这是我的代码:
这是我的输入文件的前三行:
第一列是实例的标签,其余数据包括特征及其值。例如,NN
显示POS
短语的中心词。
与此同时,我得到了NN
( NumberFormatException: For input string: "NN"
) 的例外情况。我想知道为什么它之前的 which 没有任何问题NP
,但停在NN
.
svm - 通过矢量化将文本列 csv 文件转换为 LibSVM 或 SVMLight 格式
带有文本列(列中的句子特征)的 CSV 通过像词袋等矢量化将其转换为 svmlight 或 libsvm 格式(数字格式)?
python-3.x - 如何在 python 中为 sklearn dump_svmlight_file 指定功能名称?
文档: https ://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html
svmlight 遵循数据格式:
有了数据:
运行命令:
输出以下内容:
我想知道是否有一种方法可以指定功能名称而不是让它从 0 开始递增,我希望得到类似以下的结果:
dump_svmlight_file 命令有这样的能力吗?