问题标签 [svmlight]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
634 浏览

python - 如何格式化 IRIS 数据集以输入到 SVM-Light 库?

我正在尝试使用SVM-Light 库对 IRIS 数据集进行训练和分类。是我正在使用的 python 包装器。我目前正在关注页面上的示例,但我不确定如何正确格式化 IRIS 数据以进行输入。IRIS 数据集中的示例行如下所示5.0,3.6,1.4,0.2,Iris-setosa

0 投票
0 回答
42 浏览

svm - 用于 svm 分类的分组样本

我正在尝试将一些样本分为两个不同的类别。每个样本包含几个特征。但问题是这些样本属于特定组,每个特征都代表该特定组的某些属性。通常我的数据如下所示:

这些是两组数据的样本,每组只有一个(+1)类,其余为(-1)。每组有相同大小的 10 个样本。我的问题是,我如何使用考虑这种分组的 SVM 分类器。或者,如果 SVM 不是最佳选择,您有什么建议?

0 投票
0 回答
64 浏览

database - 如何将 Svmlight 数据转换为数据库

我使用的是 Svmlight 格式的数据(你可能知道它是 libsvm)

是格式

我试图创建一个 SQL 数据库来存储它,问题是格式是稀疏的,并且在常规数据库中存储数据将非常耗时,如果我以稀疏格式存储它(每行的字符串)我不能按列内容查询东西(例如->我需要查询所有包含特征值的行#)

我正在寻找一种直接的方式将其转换为数据库,从而使过滤和查询更快、更简单。

任何人都可以向我指出一个合适的数据库解决方案,如果可能的话,一个已经制作的用于转换的实用程序?

谢谢!

0 投票
1 回答
1379 浏览

python - python sklearn 读取非常大的 svmlight 文件

我正在使用带有 svmlight 的 python 2.7 来存储和读取一个非常大的 svmlight 格式文件。

我正在使用

该文件太大而无法存储在内存中。我正在寻找一种无需提前拆分文件即可批量迭代文件的方法。

目前我发现的最好方法是使用终端命令 split 拆分 svmlight 文件。然后读取我创建的部分文件。

发现读取大文件的一个好方法是逐行读取,以免内存溢出。

如何使用 svmlight 格式的文件执行此操作?

谢谢!

0 投票
1 回答
113 浏览

python - pyspark MLUtils saveaslibsvm 仅保存在 _temporary 下而不保存在 master 上

我使用 pyspark

并使用 MLUtils saveaslibsvm在标签点上保存 RDD

它可以工作,但将这些文件保留在 /_temporary/ 下的所有工作节点中的文件数量。

没有抛出错误,我想将文件保存在正确的文件夹中,最好将所有输出保存到一个 libsvm 文件中,该文件将位于节点或主服务器上。

那可能吗?

编辑 +++++++++++++++++++++++++++++++++++++++++++++++++++++ ++++++++++++++++++++ 无论我做什么,我都无法使用 MLUtils.loadaslibsvm() 从我用来保存它的同一路径加载 libsvm 数据. 也许写文件有问题?

0 投票
1 回答
264 浏览

python - Python h2o svmlight 数据

我有一个 svmlight 格式的文件,其值如下:

92.91 18256731:1 71729421:1 72329637:1 83328561:1 118265976:1 134892759:1 198163358:1 352348616:1 526943048:1 5.30 102156934:1 134892759:1 198163358:1 254112843:1 262373758:1 512748316:1 526943048:1 22.00 32172600:1 72329637:1 118265976:1 134892759:1 198163358:1 411824213:1 443226486:1 445371412:1 526943048:1

我正在尝试在 h2o 中使用h2o.import_file(fname.svmlight)

h2o 是否支持高维稀疏二元特征?

我是否需要转换某些索引中的散列值才能使其正常工作?

0 投票
0 回答
375 浏览

scikit-learn - 使用 libSVM 工具执行多类分类

我正在尝试使用libSVM库对卫星图像进行分类。我想要的是显示分类图像并保存它,而不仅仅是在我的终端上获得准确的结果。我已经从训练数据集(如下所示)中提取了像素值,并使用脚本csv2libsvmhttps://github.com/zygmuntz/phraug/blob/master/csv2libsvm.py)将我的数据以正确的格式用于libsvm. 图像中有 4 个不同的类要分类。我的卫星图像和训练数据如下所示。

在此处输入图像描述 图 1:要使用训练数据进行分类的图像。

我遵循的步骤基于以下教程https://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf

  1. 拆分训练和测试数据(70% 训练和 30% 测试)。

    svm - subset.py 数据集 12000 training.tr testing.te

  2. 训练模型

    svm-train training.tr

  3. 做出预测

    svm-predict testing.te training.tr.model 分类输出

这个分类的准确率是95%,非常棒。

我现在真正感兴趣的是显示分类图像。所以,我需要从包含分类标签的 csv 文件中构建我的分类图像。这就是问题所在,不知道该怎么做。我所做的(但没有工作)如下:

  1. 我将生成的 csv 文件导入lbSVMpythonusingcsv模块中。

  2. 我试图将 csv 文件重塑为我的图像的形状

我的代码如下所示:

要分类的图像大小为(303 x 498),生成的预测类别大小libsvm为 1807。因此,我在尝试重塑libsvm结果时得到的错误,我得到以下错误。

ValueError: cannot reshape array of size 1807 into shape (303,498)

这个错误是有道理的。我有 1907 行并尝试对其进行重塑以匹配我的初始图像,这显然是不可能的。

那么,如何显示我的分类图像?我达到了 95% 的准确率,但还没有找到查看分类结果的方法。我虽然libsvm可能有一个将分类结果导出到 tiff 的选项,但它没有。

我将不胜感激任何帮助、建议或提示

0 投票
1 回答
183 浏览

classification - Mallet 中正确的 svmlight 输入格式是什么?

我正在使用Mallet输入SVMLight格式来classification使用NaiveBayes分类器。但我得到一个NumberFormatException. 我想知道在使用 SVMLight 时如何使用字符串功能。正如我在指南1中所读到的,这些特征也可以是字符串。

谁能帮助我的代码或输入有什么问题?

这是我的代码:

这是我的输入文件的前三行:

第一列是实例的标签,其余数据包括特征及其值。例如,NN显示POS短语的中心词。

与此同时,我得到了NN( NumberFormatException: For input string: "NN") 的例外情况。我想知道为什么它之前的 which 没有任何问题NP,但停在NN.

0 投票
1 回答
1075 浏览

svm - 通过矢量化将文本列 csv 文件转换为 LibSVM 或 SVMLight 格式

带有文本列(列中的句子特征)的 CSV 通过像词袋等矢量化将其转换为 svmlight 或 libsvm 格式(数字格式)?

0 投票
1 回答
269 浏览

python-3.x - 如何在 python 中为 sklearn dump_svmlight_file 指定功能名称?

文档: https ://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html

svmlight 遵循数据格式:

有了数据:

运行命令:

输出以下内容:

我想知道是否有一种方法可以指定功能名称而不是让它从 0 开始递增,我希望得到类似以下的结果:

dump_svmlight_file 命令有这样的能力吗?