问题标签 [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
statistics - 人工智能/确定颜色名称的统计方法
我正在考虑编写一个小库来从预定的候选列表中猜测(RGB 值)颜色的名称。
我的第一次尝试纯粹基于 3 维 RGB 颜色空间内的毕达哥拉斯距离——这并没有取得巨大成功,因为大多数命名的颜色点都位于空间的边缘(例如蓝色在 0、0、255),所以,对于空间中间的大多数颜色,它最接近的命名颜色也是相当随意的。
所以,我正在考虑更好的方法,并提出了一些候选人
HSV 颜色空间内的圆柱距离 - 这可能与上述问题类似,但是,HSV 在人类意义上似乎比 RGB 更有意义,这可能是有用的。
上述任何一种,但每个命名的颜色点都使用任意值加权,该值表示其对周围空间中点的吸引力强度。这种模型有名字吗?我意识到这有点模糊,但对我来说这似乎是一个相当直观的想法。
一个贝叶斯网络,它检查 HSV 颜色的属性并返回最可能的颜色名称(我想象的节点类似于,例如 P(Black | Saturation < 10), P(Red | Hue = 0),但是,这似乎不太理想 - 例如,给定颜色为红色的概率与其色调与 0 的接近程度成正比,而不是离散值。有没有一种方法可以调整贝叶斯网络来处理在正在测试的变量?
最后,我想知道在 HSV 或 RGB 颜色空间中是否有某种基于支持向量机的分类,但对这些分类并不十分熟悉,我不确定这是否会比基于勾股距离的方法提供任何特别的优势我最初尝试过,特别是因为我只处理三维空间。
因此,我想知道,你们中是否有人遇到过类似的问题,或者知道任何可以帮助我决定方法的资源?如果有人能指出我正确的方向(无论是上述之一,还是完全不同的东西),我将非常感激。
干杯!
蒂姆
matlab - 用于 MATLAB 的多标签 AdaBoost
我目前正在寻找一个用于 MATLAB 的多标签 AdaBoost 实现,或者一种用于在多标签案例中有效使用双标签实现的技术。对此问题的任何帮助将不胜感激。
matlab - 单层神经网络
对于单层神经网络的实现,我有两个数据文件。
以上是2个数据文件的格式。
对于相应输入所属的特定类,目标输出为“1”,其余 2 个输出为“0”。
问题如下:
您的单层神经网络将在 Y = A*X + b 中找到 A(3 x 2 矩阵)和 b(3 x 1 向量),其中 Y 是 [C1, C2, C3]' 而 X 是 [x1, x2]' .
为了用神经网络解决上述问题,我们可以将方程改写如下: Y = A' * X' 其中 A' = [A b](3×3 矩阵)并且 X' 是 [x1, x2, 1]'
现在您可以使用具有三个输入节点(一个分别用于 x1、x2 和 1)和三个输出(C1、C2、C3)的神经网络。
结果 9(因为我们在 3 个输入和 3 个输出之间有 9 个连接)权重将等效于 A' 矩阵的元素。
基本上,我正在尝试做这样的事情,但它不起作用:
我在其他文件中编写了这个函数,并在我之前的代码中调用它。
machine-learning - 序数分类包和算法
我正在尝试创建一个分类器,为项目i选择评级 (1-5) 。对于每个项目 i,我有一个向量x ,其中包含与i相关的大约 40 个不同数量。我对每个项目也有一个黄金标准评级。基于x的某些功能,我想训练一个分类器给我一个与黄金标准非常匹配的 1-5 评级。
我在分类器上看到的大多数信息都只处理二元决策,而我有一个评级决策。是否有通用技术或代码库来处理此类问题?
php - 贝叶斯分类器的 PHP 实现:将主题分配给文本
在我的新闻页面项目中,我有一个数据库表news,其结构如下:
此外,还有一个包含词频信息的表格贝叶斯:
现在我希望我的 PHP 脚本对所有新闻条目进行分类,并为它们分配几个可能的类别(主题)之一。
这是正确的实现吗?你能改进它吗?
培训是手动完成的,它不包含在此代码中。如果将文本“你可以通过出售房地产赚钱”分配给类别/主题“经济学”,那么所有单词(you,can,make,...)都将插入到表贝叶斯中,其中“经济学”为主题和 1作为标准计数。如果单词已经与相同的主题组合在一起,则计数会增加。
样本学习数据:
字数主题
卡钦斯基政治 1
索尼技术 1
银行经济学 1
电话技术1
索尼经济学 3
爱立信科技2
样本输出/结果:
文字标题:电话测试索尼爱立信阿斯彭-敏感温贝里
政治
....电话 ....测试 ....索尼 ....爱立信 ....阿斯彭 ....敏感 ....winberry
技术
....发现手机 ....测试 ....索尼发现 ....爱立信发现 ....aspen ....敏感 ....winberry
经济学
....电话 ....测试 ....发现索尼 ....爱立信 ....阿斯彭 ....敏感 ....温莓
结果:文本属于主题技术,可能性为 0.013888888888889
非常感谢您!
classification - 在 MOA 中使用我的 weka 分类器
我在 weka 中创建了自己的分类器,它与 weka gui 配合得很好。我试图通过选择 weka 分类器然后我的分类器在MOA中使用它。我的分类器出现在 weka 分类器下的 MOA gui 中,但如果我选择它,我会收到“选项问题:baseLearner”错误。是否不能在 MOA 中使用我的新 weka 分类器,是否有任何路径或对我的分类器的引用,我应该在 MOA 中添加?
提前致谢
artificial-intelligence - 检测在线扑克作弊
最近在一个大型扑克网站上发现,一些玩家可能通过利用一个被发现的安全漏洞在玩牌时看到所有对手的牌。
一个天真的作弊者会以极快的速度获胜,而且这些作弊通常很快就会被抓住,如果不迅速被抓住,他们很容易通过快速扫描他们的手牌历史来发现。
更难的问题出现在作弊者表现出智慧,在他们必然会被跟注的场合诈唬,用最差的牌跟注河牌圈下注,基本前提是他们故意输底池以掩饰他们看到其他玩家牌的能力,他们以合理的现实速度获胜。
鉴于:
- 数百万个经过验证且完整的信息手历史数据集
- 理论上无限计算能力
- 假设游戏是无限注德州扑克,尽管关于奥马哈或限注扑克的建议可能是有益的
我们如何合理准确地对这些作弊者进行分类?最初的 2+2 线程呼吁想法,我认为 SO 社区可能会有一些有用的建议。
这也是一个有趣的问题,因为它是最新的,如果有人找到创造性的解决方案,它在改善世界方面具有真正的应用,因为当发现被识别的作弊者时,真正的玩家很有可能会退还给他们的资金。
machine-learning - 解释朴素贝叶斯结果
我开始使用NaiveBayes/Simple分类器进行分类(Weka),但是在训练数据时我有一些问题需要理解。我使用的数据集是weather.nominal.arff。
当我使用选项中的使用训练测试时,分类器结果是:
我的第一个问题应该从不正确的分类实例中理解什么?为什么会出现这样的问题?哪个属性集合分类不正确?有没有办法理解这一点?
其次,当我尝试 10 折交叉验证时,为什么我得到不同(更少)正确分类的实例?
结果是:
machine-learning - 数据子集的分类器性能
我正在使用 Weka 对一组标记的网页执行分类,并使用 AUC 测量分类器性能。我有一个单独的六级因子,在分类中没有使用,我想知道分类器在因子的每个级别上的表现如何。
我应该使用哪些技术或措施来测试数据子集上的分类器性能?