问题标签 [classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
795 浏览

java - 在java中 - 对相似值进行分组

首先,感谢您阅读我的问题。

我用过TF/IDF然后在这些值上,我计算了余弦相似度,看看有多少文档更相似。您可以看到以下矩阵。列名类似于 doc1、doc2、doc3,行名与 doc1、doc2、doc3 等相同。借助以下矩阵,我可以看到 doc1 和 doc4 具有 72% 的相似性(0.722711142)。即使我看到它们相似的两个文件也是正确的。我有 1000 个文档,我可以看到每个文档的频率。在矩阵中查看其中有多少是相似的。我使用了不同的聚类,比如 k-means 和 agnes (hierarchy) 来组合它们。它制造了集群。例如 Cluster1 有 (doc4, doc5, doc3) 因为它们的值 (0.722711142, 0.602301766, 0.69912109) 分别更接近。但是当我手动查看这三个文件是否真的相同时,它们不是。:

PS:值可能是错误的,这只是给你一个想法。如果您有任何问题,请务必提出。谢谢

0 投票
5 回答
26105 浏览

machine-learning - 如何处理具有高维输入空间的机器学习问题?

当我尝试在一些高维输入上应用一些 ML 算法(更具体地说,特别是 SVM 分类)时,我应该如何处理这种情况,而我得到的结果并不十分令人满意?

1、2 或 3 维数据可以与算法的结果一起可视化,因此您可以了解正在发生的事情,并了解如何解决问题。一旦数据超过 3 维,除了直观地玩弄参数之外,我真的不知道如何攻击它?

0 投票
1 回答
136 浏览

image - 从图像文件中分类类型样本

您建议使用哪种方法对图像中的类型进行自动分类?样本可能很大,白色背景上有黑色文本。

这里定义了类别,每个类别都有一些示例(Google 图书链接):http ://bit.ly/9Mnu7P这是 VOX-ATypI 分类系统的扩展版本。

我对此的最初想法是使用来自每个类别的大量单个字符样本来训练系统,但我想知道是否有更好的方法可以消除一次比较一个字母的需要。

0 投票
2 回答
350 浏览

filter - 论坛帖子的贝叶斯过滤

有没有人使用贝叶斯过滤器让论坛成员对帖子进行分类,所以随着时间的推移,论坛只显示有趣的帖子?贝叶斯过滤器似乎可以很好地检测垃圾邮件。贝叶斯过滤器的实现是为用户过滤论坛帖子的可行方法吗?

0 投票
2 回答
9502 浏览

machine-learning - SVM 分类 - 每个类的最小输入集数

我正在尝试构建一个应用程序来检测来自网页的广告图像。一旦我检测到这些,我将不允许它们显示在客户端。

根据我在Stackoverflow question上获得的帮助,我认为 SVM 是实现我目标的最佳方法。

因此,我自己编写了 SVM 和 SMO。我从 UCI 数据存储库获得的数据集有 3280 个实例(链接到数据集),其中大约 400 个来自代表广告图像的类,其余代表非广告图像。

现在我正在获取前 2800 个输入集并训练 SVM。但在查看准确率后,我意识到这 2800 个输入集中的大多数来自非广告图像类。因此,我在该课程中获得了非常好的准确性。

那么我可以在这里做什么?我应该给 SVM 多少个输入集来训练,每个类有多少个输入集?

谢谢。干杯。(基本上提出了一个新问题,因为上下文与我之前的问题不同。神经网络输入数据的优化


谢谢回复。我想检查我是否正确导出了广告和非广告类的 C 值。请给我反馈。

在此处输入图像描述

或者你可以在这里查看文档版本。

你可以在这里看到 y1 eqaul 到 y2 的图表 在此处输入图像描述

并且 y1 不等于 y2 这里 在此处输入图像描述

0 投票
3 回答
2603 浏览

math - 评估者间协议(Fleiss 的 Kappa、Krippendorff 的 Alpha 等)Java API?

我正在建立一个问题分类/回答语料库作为我硕士论文的一部分。我正在考虑评估与评估者间协议/可靠性有关的预期答案类型分类法,我想知道:有人知道可以做到这一点的任何体面的(最好是免费的)Java API吗?

我有理由确定此时我只需要 Fleiss 的 Kappa 和 Krippendorff 的 Alpha。

Weka 在它的评估包中提供了一个 kappa 统计,但我认为它只能评估一个分类器,我还没有到那个阶段(因为我还在构建数据集和类)。

谢谢。

0 投票
3 回答
16522 浏览

machine-learning - 推荐用于简单一维场景的异常检测技术?

我有一个场景,我有几千个数据实例。数据本身表示为单个整数值。我希望能够检测到实例何时是极端异常值。

例如,使用以下示例数据:

d显然是异常,我想基于此执行特定操作。

我很想尝试使用我对特定领域的知识来检测异常。例如,找出有用的平均值的距离,并根据启发式进行检查。但是,我认为如果我研究更通用、更强大的异常检测技术可能会更好,这些技术背后有一些理论。

由于我的数学工作知识有限,我希望找到一种简单的技术,例如使用标准差。希望数据的单维性质将使这成为一个相当普遍的问题,但如果需要有关该场景的更多信息,请发表评论,我将提供更多信息。


编辑:我想我会添加更多关于数据的信息以及我尝试过的内容,以防它使一个答案比另一个答案更正确。

这些值都是正数且非零。我希望这些值将形成正态分布。这种期望是基于对领域的直觉而不是通过分析,如果这不是一件坏事,请告诉我。在聚类方面,除非还有标准算法来选择 k 值,否则我会发现很难将该值提供给 k 均值算法。

我想对异常值/异常采取的措施是将其呈现给用户,并建议将数据点基本上从数据集中删除(我不会讨论他们将如何做到这一点,但这是有道理的对于我的域),因此它不会用作另一个函数的输入。

到目前为止,我已经在我有限的数据集上尝试了三西格玛和 IQR 异常值测试。IQR 标记不够极端的值,三西格玛指出更符合我对域的直觉的实例。


有关用于了解此特定场景的算法、技术或资源链接的信息是有效且受欢迎的答案。

对于简单的一维数据,推荐的异常检测技术是什么?

0 投票
3 回答
7546 浏览

matlab - 如何在 MATLAB 中使用交叉验证测试?

我想使用 10 倍交叉验证来评估 MATLAB 中的离散化。我应该首先考虑属性和类列。

0 投票
1 回答
1018 浏览

classification - 在贝叶斯分类器中检测未知类

如果你有一个为一组类训练的贝叶斯分类器,如何检测输出是否足够重要以选择一个类?这对于检测无法分配给类的样本很有用。我已经尝试测试类概率是否高于所有类概率的均值+2*stddev,但我认为它不会是稳健的。

0 投票
2 回答
6724 浏览

classification - 选择正确的分类算法。线性还是非线性?

我觉得这个问题有点棘手。也许有人知道回答这个问题的方法。想象一下,你有一个你不知道它是什么的数据集(训练数据)。为了推断分类算法对这些数据进行分类,您会查看训练数据的哪些特征?我们能说一下我们应该使用非线性分类算法还是线性分类算法?

顺便说一句,我正在使用 WEKA 来分析数据。

有什么建议么?谢谢你。