问题标签 [training-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3420 浏览

numpy - 如何处理 HOG 特征数组以用于 scikit-learn 中的分类?

我想从图像中提取 HOG 特征,以便我可以将它们放入分类器(AdaBoost.SAMME特别是使用 scikit-learn: multiclass Adaboost in scikit-learn ensemble)。

为此,我需要将图像转换为类似数组的shape = [n_samples, n_features]

但是从图像中提取 HOG 特征的输出是一维数组。这是我的代码的相关部分:

当我检查fd时,它是一个像这样的数组:

在此处输入图像描述

让我们取前 9 行并假设这是hog函数的完整输出,并且我从中获得 HOG 特征的这张图像是我的训练数据集中的第一张图像。

那么鉴于我有一千张训练图像,这个 HOG 信息将如何表示为X = [n_samples, n_features]

下面的行X是我可以用作分类器输入的第一行吗?

这整行 HOG 值是否会被视为单个特征?或者这是错的?据我了解,训练样本应符合以下格式:

0 投票
1 回答
162 浏览

machine-learning - 选择机器学习训练方法

我有以下已经标准化的数据:

  • 客户ID
  • 客户年龄
  • 客户位置
  • 房主
  • 汽车谷
  • 风险因素
  • 已婚
  • 包装一个
  • 包 b
  • 包c

基于以上所有因素,我想预测哪些包;无论是 A、B 还是 C,客户都可能购买。

但是,我有点迷失在选择的海洋中。有许多训练方法,例如线性感知器、遗传算法、时间序列预测、自动关联网络等等。

我怎么知道哪一个最适合解决这种有多个输出的问题?

编辑:

我的问题是基于这样一个假设,即对于这个特定场景有一个最佳策略,因为我知道某些算法在某些场景中使用得更频繁,例如遗传算法经常在手写识别程序中使用。

0 投票
1 回答
1717 浏览

java - 人脸识别训练集

有人可以向我解释一下人脸识别背景下的训练集是什么意思吗?

我一直在阅读期刊,我经常看到类似的页面

实验中,每个人随机抽取5个样本作为训练集,其余样本用于测试。

谢谢

0 投票
1 回答
2358 浏览

r - R,插入符号:我如何指定训练和坚持(验证)集?

我有一个数据集,并且希望插入符号仅在我的数据集的特定部分上进行训练和验证。我有两个清单

对应于我的数据集中的行索引。train.ids$T1应该用于训练,而test.ids$T1应该用于测试。T2 和 T3 也是如此。

我尝试使用

但这似乎不是使用 trainControl 的正确方法。

非常感谢任何帮助

0 投票
0 回答
67 浏览

java - 神经网络训练 - 2个样本比较Java

我想通过给它两个样本来训练一个神经网络,并让它返回一个更高的分数以获得更好的两个样本。当我训练它时,我不知道给定样本的分数,但我可以告诉它哪个样本更好。最终,我想知道给定模式的分数。我想用Java实现这个。有谁知道一个好的框架可以使用吗?还是我的方法有缺陷?

0 投票
1 回答
9148 浏览

r - 在 R 中创建训练和测试数据集

我想从中创建训练和测试数据mydata,其中包含 2673 个观察值和 23 个变量。但是,我无法仅通过简单地减去训练数据来创建测试集。

当我运行以下命令时,我收到了 19 个警告,结果有 20,062 个观察值:

我究竟做错了什么?

0 投票
1 回答
724 浏览

javascript - Captivate 7 - 在 Multi SCO 课程中打开“打开 URL 或文件命令”后通过完成

我们一直在 Captivate 7 中开发一些课程,我发现 Captivate 7 处理某些命令或使用集成课程学分命令结束课程的能力不断下降。

我的第一个问题是通过创建/更新 utility.js 文件并将 doCPExit 更改为:

这在几个月内效果很好,但截至本月,我无法获得此修复程序以允许我们退出课程,特别是在 Captivate 7 中开发并使用 SCORM 1.2 标准的多个 SCO 课程中获得学分。

我们这里有一支强大的 IT 团队,但我需要能够以某种信心指出问题所在,我希望其他人也有同样的问题,并且可能对他们如何解决这个问题有一些见解。

我的第二个问题是关于 SetValue 并使用 JavaScript 按钮将完成直接传递给我们的 LMS ......完成此任务的最佳方法是什么?我的 JavaScript 技能有限,我担心我可能会因为糟糕的 JavaScript 编写而错过这个问题的“修复”。

我的第三个也是最后一个问题是关于我们在 Captivate 中用于调查的打开 URL/文件按钮,它会结束通信会话并在我们在新窗口中打开它后拒绝完成(在 Captivate 中使用它会崩溃),我最初的想法是完成永远不会被写入 LMS,我正在寻找在打开窗口之前发送它的好方法,以确保用户完成......这些不仅仅是测试,只是我们需要获得学分的课程。

感谢所有仔细查看并花时间帮助我解决这些问题的人。

-Stephen T.
CSX 教学设计师

0 投票
2 回答
1275 浏览

boolean - Mahout 中具有布尔偏好的基于项目的推荐器中的精度和召回率

我正在尝试使用 mahout 中给出的 item item Recommender 计算具有布尔首选项的数据集的 n 处的精度和召回率。

我正在使用 GenericBooleanPrefItemBasedRecommender 和

评估(RecommenderBuilder 推荐器构建器,DataModelBuilder 数据模型构建器,DataModel 数据模型,IDRescorer rescorer,int at,双重相关阈值,双重评估百分比)抛出 TasteException;`

由于存在布尔偏好,因此用户的“相关”或“好”电影的集合都是评分为 1 的电影。

如果我多次运行相同的代码,它总是给出相同的精度和召回值,并且它们总是彼此相等。为什么?我没有使用 RandomUtils.useTestSeed() 它如何将数据拆分为训练集和测试集?

可能性:
a)在开始时将总数据集随机划分为测试和训练,或者对于每个用户,它随机将固定百分比的相关电影放入测试集::由于没有地方供用户输入,它如何决定这个百分比this 作为参数。为什么每次运行代码时都得到相同的 P 和 R 值,为什么 n 处的 P 和 n 处的 R 的值相同?
b)对于每个用户,它将所有相关的电影放入训练集中:然后用户没有任何信息可以做出任何推荐,因此这是不可能的。

由于我在 n 处得到 P 和 R 的值相等,这是否意味着对于每个用户,每次将相关电影的数量移动到测试集 = 推荐数 ien 如果 n 相关电影放入测试set 是随机的,那么为什么每次运行代码时我都会得到相同的 P 和 R 值。

我能想到的唯一解释结果的解释是推荐器在 n 处计算 P 和 R 如下:一个接一个,对于每个用户,它随机将“n”个相关电影放入测试集中。该过程必须是随机的,因为它无法区分所有相关电影,但该过程是固定的,并且每次运行代码时,它都会为每个用户选择相同的 n 个相关电影。然后它提出 n 个建议并计算 n 处的 P 和 R。

虽然这解释了结果,但我认为这不是一个好的过程,因为:
1)训练和测试集的概念没有定义为百分比,因此与通常的定义不一致。
2) P 和 R 总是相等的,所以我们只得到一个度量而不是两个。
3)每次随机挑选'n'部电影的过程都是相同的。

编辑:我正在添加我的完整代码以帮助回答我的问题:

公共静态 void main (String[] args) 抛出异常 {

0 投票
1 回答
96 浏览

php - 在其他地方查看moodle课程内容

我有一个特殊的课程(我知道 id),这门课程的工件必须显示在我自定义页面的其他部分。

我可以通过从数据库表(如 mdl_assignments、mdl_quiz 等)呈现与此课程 ID 相关的工件来做到这一点。

但我想知道是否有任何内置方法可以在没有任何每周/主题格式的情况下查看课程内容。

我只想要工件标题及其链接

注意:我在 course/view.php 中看到了代码,但它有点乱。

我正在使用moodle 2.2

谢谢你的建议。

0 投票
2 回答
584 浏览

networking - 编写一个神经网络

所以我读了一些关于神经网络的文章,我听说了一些与输入、输出、权重、激活函数、隐藏层、3 层方法和一些微积分有关的东西,但是这些与编程有什么关系一个实际的神经网络。我正在讨论 if 语句、while 循环、类、字符串、数组、散列和排序。输入、输出、权重、激活函数和微积分与实际编程有什么关系。尤其是微积分部分。以及如何编写可以“训练”神经网络/程序的代码。我很确定我觉得我在问初学者问题。