“svmlight”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

634 浏览

python - 如何格式化 IRIS 数据集以输入到 SVM-Light 库？

我正在尝试使用SVM-Light 库对 IRIS 数据集进行训练和分类。这是我正在使用的 python 包装器。我目前正在关注页面上的示例，但我不确定如何正确格式化 IRIS 数据以进行输入。IRIS 数据集中的示例行如下所示5.0,3.6,1.4,0.2,Iris-setosa。

2017-05-31T17:51:01.117

0 投票

0 回答

42 浏览

svm - 用于 svm 分类的分组样本

我正在尝试将一些样本分为两个不同的类别。每个样本包含几个特征。但问题是这些样本属于特定组，每个特征都代表该特定组的某些属性。通常我的数据如下所示：

这些是两组数据的样本，每组只有一个（+1）类，其余为（-1）。每组有相同大小的 10 个样本。我的问题是，我如何使用考虑这种分组的 SVM 分类器。或者，如果 SVM 不是最佳选择，您有什么建议？

svm libsvm svmlight

2017-06-08T18:40:48.363

0 投票

0 回答

64 浏览

database - 如何将 Svmlight 数据转换为数据库

我使用的是 Svmlight 格式的数据（你可能知道它是 libsvm）

这是格式

我试图创建一个 SQL 数据库来存储它，问题是格式是稀疏的，并且在常规数据库中存储数据将非常耗时，如果我以稀疏格式存储它（每行的字符串）我不能按列内容查询东西（例如->我需要查询所有包含特征值的行#）

我正在寻找一种直接的方式将其转换为数据库，从而使过滤和查询更快、更简单。

任何人都可以向我指出一个合适的数据库解决方案，如果可能的话，一个已经制作的用于转换的实用程序？

谢谢！

database sparse-matrix libsvm svmlight sparse-file

2017-07-08T08:27:30.827

0 投票

1 回答

1379 浏览

python - python sklearn 读取非常大的 svmlight 文件

我正在使用带有 svmlight 的 python 2.7 来存储和读取一个非常大的 svmlight 格式文件。

我正在使用

该文件太大而无法存储在内存中。我正在寻找一种无需提前拆分文件即可批量迭代文件的方法。

目前我发现的最好方法是使用终端命令 split 拆分 svmlight 文件。然后读取我创建的部分文件。

我发现读取大文件的一个好方法是逐行读取，以免内存溢出。

如何使用 svmlight 格式的文件执行此操作？

谢谢！

python scikit-learn sparse-matrix libsvm svmlight

2017-07-17T10:20:24.653

0 投票

1 回答

113 浏览

python - pyspark MLUtils saveaslibsvm 仅保存在 _temporary 下而不保存在 master 上

我使用 pyspark

并使用 MLUtils saveaslibsvm在标签点上保存 RDD

它可以工作，但将这些文件保留在 /_temporary/ 下的所有工作节点中的文件数量。

没有抛出错误，我想将文件保存在正确的文件夹中，最好将所有输出保存到一个 libsvm 文件中，该文件将位于节点或主服务器上。

那可能吗？

编辑 +++++++++++++++++++++++++++++++++++++++++++++++++++++ ++++++++++++++++++++ 无论我做什么，我都无法使用 MLUtils.loadaslibsvm() 从我用来保存它的同一路径加载 libsvm 数据. 也许写文件有问题？

python apache-spark pyspark libsvm svmlight

2017-08-01T09:36:03.847

0 投票

1 回答

264 浏览

python - Python h2o svmlight 数据

我有一个 svmlight 格式的文件，其值如下：

92.91 18256731:1 71729421:1 72329637:1 83328561:1 118265976:1 134892759:1 198163358:1 352348616:1 526943048:1 5.30 102156934:1 134892759:1 198163358:1 254112843:1 262373758:1 512748316:1 526943048:1 22.00 32172600:1 72329637:1 118265976:1 134892759:1 198163358:1 411824213:1 443226486:1 445371412:1 526943048:1

我正在尝试在 h2o 中使用h2o.import_file(fname.svmlight)

h2o 是否支持高维稀疏二元特征？

我是否需要转换某些索引中的散列值才能使其正常工作？

python h2o svmlight

2017-08-02T20:44:39.607

0 投票

0 回答

375 浏览

scikit-learn - 使用 libSVM 工具执行多类分类

我正在尝试使用libSVM库对卫星图像进行分类。我想要的是显示分类图像并保存它，而不仅仅是在我的终端上获得准确的结果。我已经从训练数据集（如下所示）中提取了像素值，并使用脚本csv2libsvm（https://github.com/zygmuntz/phraug/blob/master/csv2libsvm.py）将我的数据以正确的格式用于libsvm. 图像中有 4 个不同的类要分类。我的卫星图像和训练数据如下所示。

图 1：要使用训练数据进行分类的图像。

我遵循的步骤基于以下教程https://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf。

拆分训练和测试数据（70% 训练和 30% 测试）。

svm - subset.py 数据集 12000 training.tr testing.te
训练模型

svm-train training.tr
做出预测

svm-predict testing.te training.tr.model 分类输出

这个分类的准确率是95%，非常棒。

我现在真正感兴趣的是显示分类图像。所以，我需要从包含分类标签的 csv 文件中构建我的分类图像。这就是问题所在，不知道该怎么做。我所做的（但没有工作）如下：

我将生成的 csv 文件导入lbSVM到pythonusingcsv模块中。
我试图将 csv 文件重塑为我的图像的形状

我的代码如下所示：

要分类的图像大小为（303 x 498），生成的预测类别大小libsvm为 1807。因此，我在尝试重塑libsvm结果时得到的错误，我得到以下错误。

ValueError: cannot reshape array of size 1807 into shape (303,498)

这个错误是有道理的。我有 1907 行并尝试对其进行重塑以匹配我的初始图像，这显然是不可能的。

那么，如何显示我的分类图像？我达到了 95% 的准确率，但还没有找到查看分类结果的方法。我虽然libsvm可能有一个将分类结果导出到 tiff 的选项，但它没有。

我将不胜感激任何帮助、建议或提示

scikit-learn svm libsvm svmlight

2017-08-05T20:05:32.837

0 投票

1 回答

183 浏览

classification - Mallet 中正确的 svmlight 输入格式是什么？

我正在使用Mallet输入SVMLight格式来classification使用NaiveBayes分类器。但我得到一个NumberFormatException. 我想知道在使用 SVMLight 时如何使用字符串功能。正如我在指南1中所读到的，这些特征也可以是字符串。

谁能帮助我的代码或输入有什么问题？

这是我的代码：

这是我的输入文件的前三行：

第一列是实例的标签，其余数据包括特征及其值。例如，NN显示POS短语的中心词。

与此同时，我得到了NN( NumberFormatException: For input string: "NN") 的例外情况。我想知道为什么它之前的 which 没有任何问题NP，但停在NN.

classification mallet svmlight

2017-09-21T11:40:49.033

0 投票

1 回答

1075 浏览

svm - 通过矢量化将文本列 csv 文件转换为 LibSVM 或 SVMLight 格式

带有文本列（列中的句子特征）的 CSV 通过像词袋等矢量化将其转换为 svmlight 或 libsvm 格式（数字格式）？

svm libsvm word2vec deeplearning4j svmlight

2018-02-09T05:27:59.717

0 投票

1 回答

269 浏览

python-3.x - 如何在 python 中为 sklearn dump_svmlight_file 指定功能名称？

文档： https ://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html

svmlight 遵循数据格式：

有了数据：

运行命令：

输出以下内容：

我想知道是否有一种方法可以指定功能名称而不是让它从 0 开始递增，我希望得到类似以下的结果：

dump_svmlight_file 命令有这样的能力吗？

python-3.x scikit-learn libsvm svmlight

2019-01-17T11:41:00.277

问题标签 [svmlight]

Reference