问题标签 [svmlight]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
167 浏览

machine-learning - SVMlight 中有缩放功能吗?

LIBSVM 指南指出,在对数据集运行 SVM 之前,应将数据集缩放到一定范围。在指南的附录 B 中,他们展示了一个 LIBSVM 函数svm-scale来进行缩放。是否有等效的功能SVMlight

0 投票
2 回答
621 浏览

linux - 为什么 svmlight 中的训练和测试文件相同

我下载了适用于 linux 操作系统的 SVM-Light。运行命令。它产生 2 个可执行的 svm_learn 和 svm_classify。train.dat使用它,我尝试test.dat使用以下代码执行示例文件(它包含一个文件)

之后我得到 2 个文本文件模型和预测。我是 svm 的新手。为什么test.dattrain.dat在示例文件中的格式相同?

输出像

train.dat是训练文件,所以它在执行前被标记,那么为什么test.dat在执行前被标记?你能解释一下输出,尤其是条款吗precision,recall,error

0 投票
0 回答
317 浏览

python - 使用 svm-light 进行电子邮件分类的输入文件格式

我正在处理电子邮件主题,所以我有 20 封要分类的电子邮件,以及一个包含 20 行的文件 - 一行有一个电子邮件主题。我一直在研究它,但我无法弄清楚这些功能指的是什么以及 svmlight 的输入文件的格式。任何继续进行的提示都会有所帮助。提前致谢!

我已将前 500 个主题行的 tf-idf 作为试验。但是,根据 svm-light 格式,我们需要:

我只有 500 行的 tf-idf 功能。遗憾的是,svm-light 没有读取它,因为它需要特征/值对。关于值可能是什么或如何更改文件以便读取的任何想法?

我拥有的文件的想法(前 5 个电子邮件功能):

任何想法都将不胜感激,因为我已经在这一点上停留了很长时间。提前致谢!

0 投票
1 回答
156 浏览

machine-learning - 高效的多类 SVM 包

你们有使用高效的多类 SVM 包的经验吗?我目前正在使用 libsvm,但是在 300k 个实例和 200 个功能上,训练需要很长时间(24 小时以上)。

谢谢!

0 投票
2 回答
73 浏览

classification - 康奈尔大学的 SVM-pref 软件包

我正在使用 SVM-pref ( http://svmlight.joachims.org ) 来解决二进制分类问题。我对这个包没有太多经验,所以我就以下问题寻求帮助:

(1) 我的特征都是离散的/名义的。是否有一种特殊的方法来表示特征向量,例如将标称值转换为连续值的特殊方法,还是我们只是替换 1、2、3 等虚拟数字的标称值?

(2) 如果第一个问题的答案是我们用虚拟数字替换名义值,那么我的第二个问题是我们从 1 开始对特征值进行编号,所以我们有 1:1 但不是 1:0,否则学习者会认为零 -价值特征不存在。那是对的吗?

(3) 我们如何配置最佳的 -c 值和其余参数的值?仅仅是通过错误和试验,还是他们使用其他方法来决定这些参数?

0 投票
3 回答
709 浏览

python - 在python中提取文件中的随机行而不将文件加载到RAM中

我有用于机器学习目的的大型 svmlight 文件。我正在尝试查看这些文件的总采样是否会产生足够好的结果。

我想提取文件的随机行以将它们提供给我的模型,但我想在 RAM 中加载不太可能的信息。

我在这里看到(从 Python 中的文件中读取一些随机行)我可以使用 linecache,但所有解决方案最终都会将所有内容加载到内存中。

有人可以给我一些提示吗?谢谢你。

编辑:忘了说我事先知道文件中的行数。

0 投票
1 回答
289 浏览

machine-learning - 权重的 SVM 向量

我有一个分类任务,我使用svm_perf应用程序。

问题是已经训练了模型,我想知道是否有可能获得特征的权重。

有一个-a参数输出 alpha,老实说,我不记得 SVM 中的 alpha 我认为权重总是w

0 投票
1 回答
516 浏览

machine-learning - SVMlight 中的预测文件是什么?

我是 SVMlight 的新手。我下载了源代码并编译了 SVMlight。

我创建了训练和测试数据集。然后跑了

创建模型文件。使用这个模型文件,我运行 svm_classify 创建一个预测文件。预测文件包含一些值。

这些数字代表什么?我想将我的数据分类为 -1 和 +1,但我在预测文件中看不到这样的值。

模型文件:

ETC...

预测文件:

ETC...

0 投票
1 回答
739 浏览

python - 在 NLTK 中导入 SVM 灯光文件格式

我正在尝试使用 NLTK 来训练用于多类文本分类的朴素贝叶斯分类器。但我无法访问原始文本。我得到的是一个 SVM Light 格式的文件(每行一个实例具有特征:值对)。我只需要导入这个文件并使用这个数据集训练和测试朴素贝叶斯分类器。我想知道是否有某种方法可以将此文件导入 NLTK 并直接使用它来训练分类器。

0 投票
1 回答
1043 浏览

machine-learning - 如何通过交叉验证在 svmlight 中获得训练准确性

我想使用 SVMlight 在我的训练集上运行交叉验证。似乎这个选项是 -x 1 (虽然我不确定它实现了多少折叠......)。输出是:

我怎样才能获得准确性?从estimate of the error?

谢谢!