问题标签 [training-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 如何为国家及其首都制作分类器(TrainingSet)?
我想检测一个句子是否包含国家名称或首都(即埃及、开罗、美国、华盛顿、印度、新德里、Kewit、Trablos、巴黎等)我想制作一个包含所有国家名称的文件,它是大写并对该文件进行二进制搜索以查看是否有任何匹配,任何关于如何准备好(分类器)进行二进制搜索或对数据文件进行任何类型搜索的想法都会有所帮助。
matlab - 在 RBF 核的情况下支持向量和准确率之间的关系
我正在使用 RBF 内核 matlab 函数。在几个数据集上,随着我继续增加 sigma 值,支持向量的数量增加并且准确性增加。而在一个数据集的情况下,当我增加 sigma 值时,支持向量会减少并且准确度会增加。在 RBF 内核的情况下,我无法分析支持向量与准确性之间的关系。
machine-learning - 关于估计训练值和调整权重的特定机器学习查询
嘿,我对机器学习领域真的很陌生,最近开始阅读 Tom Mitchell 的《机器学习》一书,我被困在第一章的一个特定部分,他谈到了估计训练值和调整权重。对估计训练值的概念的解释会很好,但我知道解释所有这些并不容易,所以如果有人能够将我指向资源(讲座视频或简单的讲座幻灯片,或一些文本片段)谈论估计训练数据等的概念。
再次抱歉,我无法就我所问的问题提供更多信息。如果有人读过这本书并且在理解这些部分中描述的概念时遇到同样的问题,那么这本书的部分是“Tom Mitchell 的机器学习”中的 1.2.4.1 和 1.2.4.2。
提前致谢。
image-processing - 在噪声数据上测试图像处理算法
我写了一个图像处理程序来训练一些分类器来识别图像中的一些对象。现在我想测试我的算法对噪声的响应。我希望该算法对噪声具有一定的鲁棒性。
我的问题是,我应该使用训练数据集的噪声版本训练分类器,还是使用数据集的原始版本训练分类器,并查看它在噪声数据上的性能。
谢谢你。
c++ - 基于 HOG 特征的 SVM 分类器用于 OpenCV 中的“对象检测”
我有一个项目,我想检测图像中的对象;我的目标是使用 HOG 功能。通过使用 OpenCV SVM 实现,我可以找到检测人的代码,并且我阅读了一些关于调整参数以检测对象而不是人的论文。不幸的是,由于几个原因,我不能这样做。首先,我可能错误地调整了参数,其次,我不是 C++ 的优秀程序员,但我必须使用 C++/OpenCV 来做这件事……在这里你可以找到用于检测人的 HOG 特征的代码使用 C++/OpenCV。
假设我想检测这张图片中的物体。现在,我将向您展示我尝试在代码中更改的内容,但对我来说没有成功。
我试图更改的代码:
我尝试getDefaultPeopleDetector()
使用以下参数进行更改,但没有成功:
然后我尝试制作一个矢量,但是当我想打印结果时,它似乎是空的。
拜托,我需要帮助解决这个问题。
image-processing - 手写识别训练集图像的最合适尺寸是多少
我正在使用神经网络(前馈反向传播方法)开发离线手写识别应用程序。我对孤立字符的训练集图像的标准化大小感到困惑。目前我正在考虑 32*32 像素。可以请帮我解决这个问题,是否有任何具体的考虑。谢谢你!!
tagging - 用于自动主题标记的 MALLET - 带有训练数据
我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。(我还有一个更大的标题列表——如果文档包含非常相似的内容,我经常会重复使用它)
我想创建一个界面,根据我标记现有文档的方式,为我添加到语料库的新文档建议标签/标题(来自我现有的列表)。
我已阅读有关概率主题模型 LDA 类的信息,当您没有任何现有的标记数据时,它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。
任何建议,将不胜感激。
亲切的问候
斯瓦米
opencv - OpenCV 迭代随机森林训练
我使用随机森林算法作为我论文项目的分类器。训练集由数千张图像组成,每张图像采样大约 2000 个像素。对于每个像素,我有数十万个特征。由于我目前的硬件限制(8G 内存,可能扩展到 16G),我只能将样本(即每个像素的特征)放入内存中,用于一张图像。我的问题是:是否可以多次调用 train 方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型?我对变量重要性特别感兴趣,因为在我用整个特征集训练完整的训练集之后,我的想法是将特征的数量从几十万减少到大约 2000,只保留最重要的。
谢谢你的任何建议,丹尼尔
java - 我应该如何在我的神经网络中对训练集进行建模?
我有一个愚蠢的困惑,但它困扰着我很多。我必须为垃圾邮件检测制作一个人工神经网络。到目前为止,我已经开发了用于开发邮件的 tfidf 向量和分别计算该矩阵的 PCA 的模块。问题是我的邮件直接从收件箱中读取。对于培训,我希望使用我的垃圾邮件箱,然后使用已用于开发未读邮件向量的相同类。如何将它们标记为垃圾邮件?
我应该开发这样的东西吗
第一个参数是通过 PCA 降维的 mailVector,而 Integer 是标签 1-Spam 和 0 表示 nonSpam,然后将向量写入文件并从中读取?或者我应该让我的代码更灵活,而不是直接从收件箱中读取,它应该从已经存在的在线垃圾邮件和垃圾邮件中读取,然后将它们建模为邮件对象[我有一个 MailMessage 类,它定义了像主题这样的成员, body , mailvector 等用于邮件,然后用它来构建术语索引,最后是向量],形成向量,然后形成一个训练集,训练后我可以让他们阅读我的收件箱吗?
任何见解将不胜感激!
testing - 半监督学习的测试数据
半监督学习使用一组标记数据(L)训练一个模型来预测一组未标记数据(U),然后将新的标记数据(L')和原始标记数据(L)分组为完整的标记数据数据。
我想问一下如何提取测试数据。
- 我应该从 (L union L') 中提取测试数据
- 我应该从 (L) 中提取测试数据
哪一个是对的?
如果测试数据是从(L union L')中提取出来的,结果没有意义,因为L'中的答案可能是错误的……?
==================================================== ======== 编辑新
我还有一个想法......
3.我应该在开始时将标记数据(L)拆分为训练数据(L_train)和测试数据(L_test)。
然后用L_train训练一个模型,用它来预测一组未标记的数据(U),然后对预测结果(L')和L_train进行分组。
并且,使用 (L_train union L') 训练模型以在 L_test 上进行测试。
1,2,3哪个是对的?感谢您的回复。