问题标签 [training-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4806 浏览

r - r 支持向量机 e1071 训练不起作用

我正在玩 R 语言中的支持向量机。具体来说,我使用的是 e1071 包。

只要我按照手册页或wikibooks上的教程进行操作,一切正常。但是,如果我尝试将自己的数据集与这些示例一起使用,那么事情就不再那么好了。

由于某种原因,模型创建似乎失败了。至少我没有得到目标列的水平。您可以在下面找到用于说明的示例。

也许有人可以帮助我弄清楚我在这里做错了什么。所以这里是所有的代码和数据。

测试数据集

R脚本

摘要(模型)语句的输出

维基教科书示例

如果我将此输出与 wikibooks 示例的输出进行比较,它会丢失一些信息。请注意输出中的“级别”部分:

输出

0 投票
1 回答
207 浏览

visual-c++ - SVM 训练以推断视频中相对于其他两个点的点位置

我想用 opencv c++ 训练一个 SVM,以便推断图像中一个点相对于所需点相关的另外两个点的位置。

基本上我有整个视频中三个点的轨迹,我想用这些轨迹作为 SVM 的训练数据。

我是机器学习技术的新手,经过一些阅读后,我想我已经理解 SVM 将返回一个布尔结果(如果同时满足某些条件,则为 true,否则为 false)。就我而言,我需要图像中的位置作为结果。

我不确定我应该如何组织训练集,我正在考虑做这样的事情:

T1 T2 T3 标签=1

其中 T1 T2 和 T3 包含属于我认为正确的三个轨迹的所有点;

T1 T2 T4 标签=-1

其中 T1 和 T2 与之前相同,而 T4 包含不位于轨迹 T3 上的随机点。

一旦我用来自不同视频的不同轨迹训练了 SVM,我想通过三个点:P1(x,y) 和 P2(x,y) 对应于时间 t 的 T1 和 T2 以及随机点 P(x,y ),SVM 应该预测随机点是否在想要的位置。

如果这种方法是错误的,任何人都可以向我解释,为什么?

谢谢

0 投票
1 回答
2161 浏览

c++ - SVM支持向量机回归openCv c++

有人可以向我解释如何在 openCv c++ 中使用 SVM 和回归吗?回归应该返回一个值,这个值可以是图像中的一个位置(坐标 x 和 y)?还是一个数字?

我必须在视频分析中使用它。我有三个点,我知道整个视频的轨迹。我想用其中两个的轨迹来推断第三个的轨迹。所以我想用这些轨迹训练一个 SVM。

我正在考虑像这样组织我的训练数据和标签:

  • 训练数据:每帧中两个点的位置(x,y)
  • 标签:每帧中第三个点的位置(x,y)

这是正确的方法吗?或者我应该这样组织它:

  • 训练数据:每帧我加负例的三个点的位置(x,y),改变第三个点的位置,模拟一个错误的训练集
  • 标签:如果第三个点位置属于它的轨迹,则为 1,如果属于错误训练集,则为 -1
0 投票
1 回答
1895 浏览

ocr - 使用什么样的数据来训练 Tesseract OCR 的新语言

我想知道我们将使用什么样的数据来训练 Tesseract OCR 的新语言?

是每个角色吗?或者我们必须做出一些具体的句子?

请帮助提供此信息的一些来源,我无法在其 wiki 页面上清楚地了解。

0 投票
1 回答
2062 浏览

matlab - 训练级联对象检测器 matlab

我在问我如何使用 trainCascadeObjectDetector,而我已经创建了一个由文件名和绑定框坐标组成的正样本结构。我也有一个负面的示例图像文件。但是当我将功能作为流

我有这个错误:

0 投票
1 回答
2217 浏览

java - 使用模拟退火来训练神经网络的非常大的数据集

由于即使对于我的多层前馈网络的 10-15 组两个输入,模拟退火也需要太多时间,我如何使用 100k 数据集来训练 8-9 个输入?

一些猜测:

  • 从随机位置采样。(例如:200 组螺旋问题只有 10 次读取,每次使用随机数据)
  • 使用数据量化器将 200 个数据集分成 20 个量化区域,以提供 20 倍的神经网络

但是这些不能提供相同的输出,第一个选项不能保证找到哪个螺旋拥有输入位置(错误的测试用例),第二个选项需要 20 倍以上的神经元和计算能力。

每次迭代采用 100k 平方和的输出误差,使其收敛时间比 10 平方和版本长得多。因为找到一个更稳定的状态的概率太低了。也许有一种方法可以在不计算所有数据的情况下从第一个数据迭代到最后(从一个数据中获得更好的错误状态非常容易,但是如何迭代?当达到第二个数据时,第一个数据会被遗忘,因为模拟退火是随机动作)

四个数据集的示例:{ {0,0} {0,1} {1,0} {1,1} } ----> {0,1,1,0} ---->easy

100k 组数据:两个大螺旋的坐标,NN 试图通过数据找到一个独特性。难的。

什么是核心方式?

收敛第一个数据然后第二个然后......最后一个数据,最后降低温度?

完全收敛第一个数据,降低温度,完成后,对其他数据做同样的事情吗?

按大于 10-15 的批次进行操作需要很长时间。

我们可以取两个数据的收敛权重并获得这些权重的平均值并使用吗?

例如,对于孢子类游戏的生物创造者,当一个生物有 40 条腿时,教走路可能会很困难,因为会有很多随机情况,并且需要实时学习(与游戏同时进行)跑步)

最重要的是:在线学习是否可以接受模拟退火,如果可以,如何?任何已知的伪代码?

例如,使用 gpu 和 mapped(calc) 在一秒(或两秒)内对超过 190 个数据集进行训练,以纳秒-微秒为单位:

训练前: 在此处输入图像描述

训练结束后: 在此处输入图像描述

(可选)强化以获得硬分离的边界(在此示例中,红色和蓝色以 0.5f 边界分隔) 在此处输入图像描述

但是这种类型的学习仅适用于两个输入(二维),并且对于每个输出都必须有另一个映射。

任何可以做这些图片中的事情的免费 java 库都将不胜感激。

0 投票
1 回答
753 浏览

training-data - FANN 增量学习

我现在正在使用 FANN 进行增量学习。有人会告诉我我的程序是否错误吗?谢谢你。

我有一个要训练的数据集。但将来我会得到一些新的数据集。我想用新的数据集增量训练当前的 nn,称为“增量学习”。

我首先使用旧数据“old.data”创建和训练一个 nn。我还设置了训练算法。

结构 fann *ann = fann_create_standard(num_layers, num_input, num_neurons_hidden, num_output); fann_set_activation_function_hidden(ann, FANN_SIGMOID_SYMMETRIC); fann_set_activation_function_output(ann, FANN_SIGMOID_SYMMETRIC);
fann_set_training_algorithm(ann, FANN_TRAIN_INCREMENTAL);
fann_train_on_file(ann,“old.data”,max_epochs,epochs_between_reports,desired_error);fann_save(ann, "mynn.net");
fann_destroy(ann);

然后当我有新的数据集“new.data”时,我想我可以这样编程:

struct fann *ann = fann_create_from_file("mynn.net");
fann_train_on_file(ann,“new.data”,max_epochs,epochs_between_reports,desired_error);

我的程序正确吗?

0 投票
1 回答
5091 浏览

matlab - 如何训练用于对象检测的潜在 SVM 模型?它使用 Matlab 2012b、Windows 64 位操作系统崩溃

如何在 Windows 7 下使用 C++ 或 Matlab2012b 训练自己的检测器?我没有 Linux 或我没有 Mac OSX。

在写这里之前,我实际上搜索了很多。我得到的是:

我想训练我自己的潜在 SVM 模型并在 C++ 中使用它。我检查了 OpenCV 示例 cpp/latentsvm_multidetect.cpp。它适用于现有模型。

作者的网站:http ://www.cs.berkeley.edu/~rbg/latent/index.html 。提到软件是在linux和mac osx下使用matlab2011a测试的。但是,我在 Windows7 64 位下运行 matlab2012b。代码经常崩溃,我试图修复错误,但我无法应付了。

我可以在 Windows 7 64 位下使用任何其他源代码吗?

OpenCV:http ://docs.opencv.org/modules/objdetect/doc/latent_svm.html 。没有用于训练的代码实现。只有检测器可以用于检测具有现有模型的对象。

另一方面,有人问了同样的问题。opencv 潜在支持向量机。然而,这个问题没有得到回答就关闭了。伤心!

此外,OpenCV 和 Latent SVM Detector与我的问题类似。我对答案不满意,我在 Matlab 源代码的 README 文件中阅读了相同的内容。如果我在 Windows 7 下运行,它并不能帮助我克服源代码中的错误。对于这个问题,我想添加评论以进一步询问,由于我的声誉,我无法添加(我是新来的)。

我认为,Latent SVM 很吸引人,是检测物体的新方法。另外,我认为这应该是轻松训练我们自己的模型的普遍问题。如果有人能指导就好了。

无论如何,我不明白为什么在 OpenCV 中没有使用检测器部分实现训练部分!

0 投票
1 回答
1171 浏览

r - R中带有替换的随机抽样子集

我有一个包含 300 个数字(从 1 到 300)的向量。我想创建两个子集,即模型/训练(200 个数字)和测试集(100 个数字)并进行替换。我尝试使用samplesubset但没有得到我想要的结果。

请有任何建议!!!!

0 投票
2 回答
7282 浏览

csv - 测试和训练集不兼容

我看过关于同一问题的各种文章,尝试了很多解决方案,但没有任何效果。好心劝告。

我在 WEKA 中遇到错误:

“问题评估分类器:测试和训练集不兼容”。

我在用

J48 作为我的算法

这是我的测试集:

(由于代码太长,我无法复制和粘贴)

我在 WEKA(用于 Traningset)中尝试了“批量过滤”,但它仍然不起作用。

编辑:我什至已经转换了我的.csv to .arff 但仍然是同样的问题。

EDIT2:我已确保两个 CSV 中的标题匹配。即使是同样的问题。请帮忙!

请指教。