问题标签 [classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2107 浏览

data-mining - 使用 RBFKernel(C 和 gamma)优化 SMO

使用带有支持向量机的 RBF 内核时有两个参数:C 和 γ。事先不知道哪个 C 和 γ 最适合一个问题;因此,必须进行某种模型选择(参数搜索)。目标是识别好的(C;γ),以便分类器可以准确地预测未知数据(即测试数据)。

weka.classifiers.meta.GridSearch是用于调整一对参数的元分类器。然而,似乎需要很长时间才能完成(当数据集相当大时)。为了缩短完成这项任务所需的时间,您建议做什么?

根据支持向量机的用户指南

C:软边距常数。较小的 C 值允许忽略靠近边界的点,并增加边距。

γ> 0 是控制高斯宽度的参数

0 投票
3 回答
1805 浏览

java - 稀疏数据上的离散和连续分类器

我正在尝试对包含离散和连续特征的示例进行分类。此外,该示例表示稀疏数据,因此即使系统可能已经针对 100 个特征进行了训练,该示例也可能只有 12 个。

用于完成此任务的最佳分类器算法是什么?我一直在研究 Bayes、Maxent、Decision Tree 和 KNN,但我不确定它们是否完全符合要求。我发现最大的症结在于大多数实现不支持稀疏数据集以及离散和连续特征。任何人都可以推荐符合这些标准的算法和实现(最好是在 Python 中)吗?

到目前为止我看过的图书馆包括:

  1. 橙色(主要是学术性的。实现不是非常有效或实用。)
  2. NLTK(也是学术性的,虽然有很好的 Maxent 实现,但不处理连续特征。)
  3. Weka(仍在研究这个。似乎支持广泛的算法,但文档很差,所以不清楚每个实现支持什么。)
0 投票
6 回答
3929 浏览

python - 什么算法适合这个简单的机器学习问题?

我有一个我认为是简单的机器学习问题。

这是基本问题:我反复收到一个新对象和有关该对象的描述列表。例如:新对象:'bob'新对象描述:['tall','old','funny']。然后,我必须使用某种机器学习来查找先前处理过的具有 10 个或更少的最相似描述的对象,例如 past_similar_objects: ['frank','steve','joe']。接下来,我有一个算法,可以直接衡量这些对象是否确实与 bob 相似,例如,correct_objects: ['steve','joe']。然后为分类器提供成功匹配的反馈训练。然后这个循环重复一个新对象。a 这是伪代码:

但是,有一些规定可能会限制可以使用的分类器:

  • 将有数百万个对象放入这个分类器中,因此分类和训练需要很好地扩展到数百万个对象类型并且仍然很快。我相信这会取消诸如垃圾邮件分类器之类的东西,该分类器仅适用于两种类型:垃圾邮件或非垃圾邮件。(更新:如果这是一个问题,我可能会将其缩小到数千个对象而不是数百万个对象。)

  • 同样,我更喜欢对数百万个物体进行分类时的速度,而不是准确性。

  • 更新:分类器应根据过去训练的反馈返回 10 个(或更少)最相似的对象。如果没有这个限制,一个明显的欺骗是分类器可以只返回所有过去的对象:)

为此目的,什么是体面、快速的机器学习算法?

注意: calc_successful_matches 距离度量的计算成本非常高,这就是为什么我使用快速机器学习算法来尝试在我实际进行昂贵的计算之前猜测哪些对象会接近。

0 投票
2 回答
2089 浏览

machine-learning - 支持向量机的序列最小优化收敛问题

我已经在支持向量机上工作了大约 2 个月了。我自己编写了 SVM,对于 SVM 的优化问题,我使用了 John Platt 博士的序列最小优化(SMO)。

现在我正处于进行网格搜索以找到我的数据集的最佳 C 值的阶段。(请在此处找到我的项目应用程序和数据集详细信息的详细信息SVM 分类 - 每个类的最小输入集数

我已经成功检查了我自定义实现的 SVM 对从 2^0 到 2^6 的 C 值的准确性。但是现在我在 C> 128 的 SMO 收敛方面遇到了一些问题。就像我试图找到 C=128 的 alpha 值一样,它需要很长时间才能真正收敛并成功给出 alpha 值。

对于 C=100,SMO 收敛所需的时间约为 5 小时。我认为这个巨大(因为 SMO 应该很快。)虽然我得到了很好的准确性?我搞砸了,不是因为我无法测试更高 C 值的准确性。

实际上,我正在显示在 SMO 的每次传递中更改的 alpha 数量,并获得 10、13、8... alpha 连续变化。KKT 条件确保收敛,那么这里发生了什么奇怪的事情?

请注意,尽管执行时间很长,但我的实现对于 C<=100 的精度很高。

请就这个问题给我意见。

谢谢你和干杯。

0 投票
1 回答
2152 浏览

machine-learning - 为分类问题生成假数据的最佳方法是什么?

我正在做一个项目,我有一个用户击键时间数据的子集。这意味着用户进行了 n 次尝试,我将在各种分类算法中使用这些记录的尝试时间数据,以供未来用户尝试验证登录过程由用户或其他人完成。(简单地说,这是生物识别)

我有 3 次不同的用户登录尝试过程,当然这是无限数据的子集。

到目前为止,这是一个简单的分类问题,我决定使用 WEKA,但据我了解,我必须创建一些假数据来提供分类算法。用户的测量尝试将为 1,假数据将为 0。

我可以使用一些优化算法吗?或者有什么方法可以创建这个假数据来获得最少的误报?

谢谢

0 投票
4 回答
12139 浏览

matlab - MATLAB 中的 SVM 可视化

在 Matlab 中执行 SVM 训练后,如何可视化 SVM 分类?

到目前为止,我只训练了 SVM:

0 投票
1 回答
13512 浏览

artificial-intelligence - 如何为机器学习设计特征

您是否有一些建议或阅读如何为机器学习任务设计功能?即使对于神经网络,良好的输入特征也很重要。选择的特征将影响所需的隐藏神经元数量和所需的训练示例数量。

以下是一个示例问题,但我一般对特征工程感兴趣。

一个动机示例: 当看一个谜题(例如,15-puzzleSokoban)时,什么是好的输入?是否有可能识别出两种状态中的哪一种更接近目标?

0 投票
8 回答
15537 浏览

f# - 使用人工智能 (AI) 预测股票价格

给定一组与Motley Fool CAPS 系统非常相似的数据,个人用户在其中输入各种股票的买入和卖出建议。我想做的是展示每个建议,我猜想(1-5)它是否是未来股价(或每股收益或其他)的良好预测器<5>(即相关系数 = 1)或一个可怕的预测变量(即相关系数 = -1)或介于两者之间。

每个推荐都被标记给特定的用户,因此可以随着时间的推移进行跟踪。我还可以根据 sp500 的价格跟踪市场方向(看涨/看跌)。我认为在模型中有意义的组件是:

人们的想法是,一些用户在牛市中比熊市更好(反之亦然),而一些用户在空头方面比多头更好——然后是上述组合。我可以自动标记市场方向和行业(基于当时的市场和推荐的股票)。

我的想法是,我可以展示一系列屏幕,并允许我通过显示特定时间段内可用的绝对数据、市场和行业表现来对每个单独的推荐进行排名。我会按照详细列表对股票进行排名,以便排名尽可能客观。我的假设是单个用户的正确率不超过 57%——但谁知道呢。

我可以加载系统并说“让我们将推荐列为 90 天前股票价值的预测指标”;这将代表一组非常明确的排名。

现在是关键 - 我想创建某种机器学习算法,可以识别一系列时间的模式,以便当推荐流入应用程序时,我们维护该股票的排名(即类似于相关系数)该推荐的可能性(除了过去的一系列推荐)将影响价格。

现在这里是超级症结所在。我从来没有上过人工智能课/读过人工智能书/更不用说机器学习了。因此,我正在寻找指导——我可以适应的类似系统的示例或描述。寻找信息或任何一般帮助的地方。或者甚至把我推向正确的方向开始......

我希望用 F# 来实现这一点,并能够通过机器学习的实现以及可能包含在技术组合或博客空间中的一些东西(应用程序/源代码)来给我的朋友留下深刻印象;

感谢您提前提供任何建议。

0 投票
8 回答
9389 浏览

machine-learning - 我想要一台机器学习对短文本进行分类

我有一大堆大约 500 字长的短篇小说,我想将它们归为 20 个类别之一:

  • 娱乐
  • 食物
  • 音乐
  • ETC

我可以手动分类一堆,但我想实现机器学习来最终猜测类别。解决这个问题的最佳方法是什么?我应该使用机器学习的标准方法吗?我认为决策树不能很好地工作,因为它是文本数据......我在这个领域是全新的。

任何帮助将不胜感激,谢谢!

0 投票
3 回答
5617 浏览

artificial-intelligence - 初学者资源/分类算法介绍

大家。我对分类算法这个话题完全陌生,需要一些关于从哪里开始“认真阅读”的好建议。我现在正在寻找机器学习和自动分类算法是否值得添加到我的一些应用程序中。

我已经浏览了 Z. Michalewicz 和 D. Fogel 的“How to Solve It: Modern heuristics”(特别是关于使用神经网络的线性分类器的章节),并且在实际方面,我目前正在浏览WEKA 工具包源代码。我的下一个(计划中的)步骤将是深入贝叶斯分类算法领域。

不幸的是,我在这个领域缺乏一个严肃的理论基础(更不用说,到目前为止已经以任何方式使用过它),所以任何关于下一步看哪里的提示都将不胜感激;特别是,很好地介绍可用的分类算法会很有帮助。多做工匠少做理论家,越实用越好……

提示,有人吗?