问题标签 [training-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1316 浏览

sentiment-analysis - 使用 Google Prdection API 进行情绪分析的训练模型

我打算使用Google Prediction API进行情绪分析。我怎样才能为此生成训练模型?或者我在哪里可以找到任何可用于商业用途的标准训练模型?我已经尝试过Google Prediction API的 Prediction Gallery 中提供 的Sentiment Predictor,但似乎无法正常工作。

0 投票
1 回答
1876 浏览

opencv - 使用具有透明度的图像进行 OpenCV haar 训练

我将使用 OpenCV 的级联训练功能。但在此之前我需要准备训练数据。我只想知道如果我的阳性样本具有透明度,OpenCV是否可以支持它?例如,如果我想让分类器了解车辆的外观,那么我可以提供车辆站在透明背景上的正样本图像吗?

0 投票
2 回答
4883 浏览

kernel - SVM:VC维度和内核维度数之间的关系

我正在使用 Thorsten Joachims 的 SVM-light 探索 SVM 主题。

现在根据一些介绍文件:

“R n中定向超平面集的 VC 维数为 n+1 [...]”

“当 C = inf 时,最佳超平面将是完全分离数据的超平面(假设存在)[...]”

我准备了一个二维线性可分数据集,并想看看我们从很多插图中知道的 2d 硬边距分类器。

所以我选择了以下参数:

  • 多项式内核 (a*b+c) d与 d = 2
  • C = 999(以便接近 inf)

我得到了 3 个支持向量,这很好,但估计的 VC 维数超过 10,000。

现在我想知道如果内核只是二维的,是否有可能有这么高的 VCdim?

0 投票
1 回答
1693 浏览

opencv - Opencv createsamples 实用程序:紧密边界框是否会用未裁剪的图像代替正样本?

我有近 1000 张图像,我想将它们用作 opencv 的正样本,以便在 cascadedtrainer 中使用。

我读过这个优秀的教程: http: //note.sonots.com/SciSoftware/haartraining.html,以及这个: http: //www.computer-vision-software.com/blog/2009/11/faq -opencv-haartraining/,但我无法决定如何处理 createsamples 实用程序的 -w 和 -h 参数以及裁剪图像的想法。

我有带有大量背景内容的大图像 [1300x600],因此级联分类器实际需要检测的对象通常占图像的 10% 左右。

是否有必要裁剪图像然后使用 OpenCV 的 createsamples 实用程序?或者我可以省略裁剪部分,因为无论如何,正样本的描述文件包括 x 和 y 坐标以及围绕感兴趣对象的边界框的高度和宽度。我很困惑,因为我在某处读到“背景过多”会破坏表演。当一个人已经为图像中的对象指定了紧密的边界框时,是否存在“背景过多”之类的事情?

我的主要问题是时间,如果它最终不会损害分类器的性能,我想避免手动裁剪 1000 张图像。


编辑

我实际上做了一些裁剪,这是我的样本外观的平均分布:

车1 车2 车3 车4 车5 车6 车7

0 投票
2 回答
4045 浏览

matlab - 如何在 Matlab 中逐步训练神经网络?并迭代地组合它们

我有非常大的火车,所以 Matlab。而且我需要进行大规模的培训。

是否可以将训练集分成几部分并迭代训练网络并在每次迭代时更新“网络”而不是覆盖它?

下面的代码显示了这个想法,它不会工作。在每次迭代中,它根据唯一的训练数据集更新网络。

0 投票
1 回答
776 浏览

machine-learning - 如何在大训练集和小内存上训练神经网络

我使用 gpu 计算编写了自己的带有反向传播的神经网络库。想让它通用,我不必检查训练集是否适合 gpu 内存。

当训练集太大而无法放入 gpu 内存时,如何训练神经网络?我假设它适合主机的 RAM。

我必须对第一个片段进行训练迭代,然后在设备上将其释放,然后将第二个片段发送到设备并对其进行训练,依此类推......然后总结梯度结果。

当我必须通过 PCIe 总线推送所有数据时,它不会太慢吗?你有更好的主意吗?

0 投票
26 回答
15025 浏览

java - CountNonDivisible - Codility 训练任务

我现在正在学习codility。有些任务我可以自己解决,但有些任务有问题。这个任务的难度是<**>。它是中等的,但我停滞不前。

问题:


给定一个由 N 个整数组成的非空零索引数组 A。对于每个满足 0 ≤ i < N 的数字 A[i],我们要计算数组中不是 A[i] 的除数的元素的数量。我们说这些元素是非除数。例如,考虑整数 N = 5 和数组 A 使得:

对于以下元素:

写一个函数:

即,给定一个由 N 个整数组成的非空零索引数组 A,返回一个整数序列,表示非除数的数量。该序列应返回为:

  • 结构结果(在 C 中),
  • 或整数向量(在 C++ 中),
  • 或记录结果(以帕斯卡为单位),
  • 或整数数组(在任何其他编程语言中)。

例如,给定:

如上所述,该函数应返回 [2, 4, 3, 2, 0]。假使,假设:

  • N 是 [1..50,000] 范围内的整数;
  • 数组 A 的每个元素都是 [1..2 * N] 范围内的整数。

复杂:

  • 预期的最坏情况时间复杂度为 O(N*log(N));
  • 预期的最坏情况空间复杂度为 O(N),超出输入存储(不计算输入参数所需的存储)。

可以修改输入数组的元素。


我已经写了一些解决方案。但是我的解决方案体积庞大,并且仍然具有 O(n^2) 复杂性。你能帮我一些想法或算法如何以最佳方式做到这一点吗?这不是面试任务或其他什么。我只是在训练并尝试解决所有任务。您可以在此处找到此任务:http: //codility.com/demo/train/第 9 课,课程中的第一个任务。

谢谢!

0 投票
2 回答
22546 浏览

angularjs - angularjs 免费视频教程

我在谷歌上查了一下,但没有找到任何关于 anjular js 的免费视频教程,这个网站看起来不错( http://egghead.io)但需要钱。你有任何关于angularjs的免费视频培训吗?

0 投票
1 回答
3750 浏览

opencv - OpenCV positive samples dimensions?

So I've come across lots of tutorials about OpenCV's haartraining and cascaded training tools. In particular I'm interested in training a car classifier using the createsamples tool but there seem to be conflicting statements all over the place regarding the -w and -h parameters, so I'm confused. I'm referring to the command:

I have the following three questions:

  • I understand that the aspect ratio of the positive samples should be the same as the aspect ratio you get from the -w and -h parameters above. But do the -w and -h parameters of ALL of the positive samples have to be the same size, as well? Eg. I have close to 1000 images. Do all of them have to be the same size after cropping?

  • If it is not the size but the aspect ratio that matters, then how precisely matching must the aspect ratio be of the positive samples, compared to the -w and -h parameters mentioned in the OpenCV tools? I mean, is the classifier very sensitive, so that even a few pixels off here and there would affect its performance? Or would you say that it's safe to work with images as long as they're all approximately the same ratio by eye.

  • I have already cropped several images to the same size. But in trying to make them all the same size, some of them have a bit more background included in the bounding boxes than others, and some have slightly different margins. (For example, see the two images below. The bigger car takes up more of the image, but there's a wider margin around the smaller car). I'm just wondering if having a collection of images like this is fine, or if it will lower the accuracy of the classifier and that I should therefore ensure tighter bounding boxes around all objects of interest (in this case, cars)?

big car small car

0 投票
1 回答
1773 浏览

opencv - 为旋转图像构建正样本以在 OpenCV 中进行级联训练

我需要训练一个级联分类器来检测车辆和不同的视角。我正在使用 OpenCV。

我需要捕捉的一些角度导致图像中车辆的放置是对角线的,如下所示:

在此处输入图像描述

现在的问题是,由于车辆对角放置在图像上,所以有很多不必要的背景,我不能仅仅因为图像必须是矩形而裁剪掉。是否有另一种方法可以为对象的对角放置的角度/视角构建正样本?我确实需要分类器能够识别对象的这个特定视图。在上面的汽车中并没有那么糟糕,因为汽车的长度和宽度之间没有太大的差异。但是,如果我对一辆卡车做同样的事情,它的长度是宽度的几倍,那么图像最终的背景比它们感兴趣的对象要多,如下所示。我担心这对分类是好是坏,以及是否有任何解决方案。

无论车辆在背景上以哪种方式旋转,分类器都会识别出车辆的特定角度吗?在这种情况下,最好旋转整个卡车图像,使卡车水平/垂直,然后剪辑图像的其余部分?

在此处输入图像描述