问题标签 [classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
643 浏览

java - 你能给我推荐一个好的 Java 库来使用向量空间模型执行文本分类吗?

我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离。

我想使用该距离使用 k-Nearest-Neighbor 方法对一些新文档进行分类。

您对我可以使用的库有什么建议吗?

到目前为止,我看到 Weka 和 Apache Lucene 都应该支持向量空间模型,你认为哪一个最适合我的需求?

0 投票
3 回答
198 浏览

machine-learning - 对于既不是分类也不是回归的事物,正确的术语是什么?

假设我有一个基本上是分类的问题。也就是说,给定一些输入和一些可能的输出类,为给定的输入找到正确的类。神经网络和决策树是可用于解决此类问题的一些算法。然而,这些算法通常只发出一个结果:结果分类。

现在,如果我不仅对一个分类感兴趣,而且对输入属于每个类的后验概率感兴趣怎么办。IE,而不是答案“此输入属于 A 类”,我想要答案“此输入属于 80% 的 A 类,15% 的 B 类和 5% 的 C 类”。

我的问题不是关于如何获得这些后验概率,而是关于描述找到它们的过程的正确术语。你可以称之为回归,因为我们现在正试图估计一些实数值,但我不太确定这是否正确。我觉得这也不完全是分类,它介于两者之间。

是否有一个词描述了查找某些输入属于每个可能的输出类的类条件后验概率的过程?

PS我不确定这个问题是否足以成为一个编程问题,但由于它是关于机器学习的,而机器学习通常涉及大量的编程,让我们试一试。

0 投票
3 回答
5390 浏览

algorithm - 寻找最接近的匹配

我有一个带有一组参数的对象,例如:

另一方面,我有一个对象列表:

为列出的对象中的第一个 obj 找到最接近的匹配项的最佳(最简单)算法是什么?

0 投票
1 回答
2516 浏览

machine-learning - 罕见事件检测

对人们用于罕见事件检测的算法有什么好的参考吗?另外,如何考虑时间因素?如果我遇到连续数据点说明某些事情(t_1 到 t_n)的情况,如何将其纳入正常的机器学习场景?

任何指针将不胜感激。

0 投票
4 回答
13075 浏览

matlab - MATLAB中的特征选择方法?

我正在尝试在 MATLAB 中使用 SVM 进行一些文本分类,并且真的很想知道 MATLAB 是否有任何特征选择方法(Chi Sq.,MI,....),因为我想尝试各种方法并保持最好的方法,我没有时间实现所有这些。这就是为什么我在 MATLAB 中寻找这样的方法。有人知道吗?

0 投票
3 回答
4719 浏览

r - 文档分类的决策树

嗨,我想知道是否可以使用决策树进行文档分类,如果可以,那么数据表示应该如何?我知道将 R 包派对用于决策树。

0 投票
3 回答
1353 浏览

image - 对符号/图像进行分类的建议

我正在研究一个需要对字符和符号进行分类的项目(基本上是 OCR,需要处理单个 ASCII 字符和符号,例如音乐符号)。我正在使用矢量图形(WPF 中的路径和字形),因此图像可以具有任何分辨率,并且旋转可以忽略不计。它需要对不在训练集中的字体和路径进行分类(并可能从中学习)。性能很重要,尽管高精度是优先考虑的因素。

我查看了一些使用 Emgu CV(OpenCV 的 .Net 包装器)进行图像检测的示例。然而,我发现的示例和教程似乎专门处理图像检测而不是分类。我不需要在更大的图像中找到图像的实例,只需确定图像中的符号类型。

似乎有多种方法可供选择,其中可能有效,我不知道从哪里开始。任何建议或有用的链接将不胜感激。

0 投票
3 回答
3645 浏览

text - 如何使用 NLP 将非结构化文本内容分成不同的段落?

以下非结构化文本具有三个不同的主题——史泰龙、费城和美国革命。但是您会使用哪种算法或技术将这些内容分成不同的段落?

分类器在这种情况下不起作用。我还尝试使用 Jaccard 相似性分析器来查找连续句子之间的距离,并尝试将连续句子组合成一个段落,如果它们之间的距离小于给定值。有没有更好的方法?

这是我的文本示例:

西尔维斯特·加登齐奥·史泰龙,绰号狡猾的史泰龙,是美国演员、电影制片人和编剧。史泰龙以其大男子主义和好莱坞动作角色而闻名。史泰龙的电影《洛奇》被纳入国家电影登记处,其电影道具被放置在史密森尼博物馆。史泰龙在洛基系列中使用费城艺术博物馆的正门使该地区被昵称为洛基台阶。费城是商业、教育和文化中心,曾经是大英帝国的第二大城市(仅次于伦敦) ),以及最初的 13 个美洲殖民地的社会和地理中心。它是美国早期历史的核心,承载了许多催生美国革命和独立的思想和行动。美国革命是 18 世纪下半叶的政治动荡,北美的 13 个殖民地联合起来摆脱大英帝国,合并成为美利坚合众国。他们首先拒绝了英国议会在没有代表的情况下从海外管理他们的权力,然后驱逐了所有王室官员。到 1774 年,每个殖民地都建立了省议会或同等的政府机构,以形成独立的自治州。然后驱逐了所有的皇室官员。到 1774 年,每个殖民地都建立了省议会或同等的政府机构,以形成独立的自治州。然后驱逐了所有的皇室官员。到 1774 年,每个殖民地都建立了省议会或同等的政府机构,以形成独立的自治州。

0 投票
3 回答
213 浏览

python - 使用低分辨率输入矩阵以奇数角度测量矩形(线性回归分类?)

我正在尝试解决以下问题:

给定一个输入,比如说,

我需要找到该字段中所有矩形的宽度和高度。输入实际上是一次单列(就像扫描仪从左到右移动一样)并且在程序的持续时间内是连续的(也就是说,扫描列不移动,但矩形在它上面移动)。

在这个例子中,我可以“等待一个矩形开始”(即观察零变为 1)然后观察它结束(一个回到零)并以“网格单位”测量该块。这对于上面概述的简单情况可以正常工作,但是如果矩形倾斜一个角度就会失败,例如:

我最初认为以下问题将适用:

动态规划 - 最大方块

但现在我不太确定。

我对回归或回归测试几乎没有经验,但我认为我可以将其表示为 8 个变量的输入.....

老实说,我根本不知道我会怎么做。这部分代码提取的大小需要与已知大小的矩形相匹配(即,来自数据库)。

我最初认为我可以将已知数据作为训练练习提供并存储阳性测试结果,但我真的不知道从哪里开始。

感谢您提供的任何建议。

0 投票
1 回答
2664 浏览

c++ - 增量决策树 C++ 实现

有谁知道决策树分类器的任何增量实现。这样,当您将新实例添加到具有低计算量的训练集中并且根据现有的决策树分类器尽可能快时,它可以生成最佳决策树分类器?

换句话说,我有一个名为T_1的集合A的最优决策树分类器,现在我想将实例X添加到集合A并通过利用集合{A,X}的T_1X找到最优决策树分类器树T_2 .

添加实例将发生多次。因此,找到增量方法而不是每次都构建树对我来说很有价值。

实际上,我怀疑这种实现是否存在。如果有人可以帮助我,我们将不胜感激。如果有的话,我更喜欢 C++ 中的代码。

谢谢