问题标签 [classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1609 浏览

matlab - 绘制分类边界?

我想绘制在 Matlab 中使用逻辑回归获得的模型的分类边界。欢迎使用 Matlab 以外的解决方案,但我需要访问逻辑回归代码进行修改。

0 投票
3 回答
10571 浏览

c# - 为 Twitter 情感分析项目寻找 C# 中的开源朴素贝叶斯分类器

我在这里找到了一个类似的项目:Python 中 Twitter 的情绪分析。但是,我正在使用 C# 并且需要使用以相同语言开源的朴素贝叶斯分类器。除非有人能阐明我如何利用 python 贝叶斯分类器来实现相同的目标。有任何想法吗?

0 投票
2 回答
2386 浏览

machine-learning - 在 ID3 实现中,此时算法中的递归应该停止

在 ID3 实现中,算法中的递归应该停止。

0 投票
4 回答
1054 浏览

machine-learning - 计算机科学专业的毕业生需要学习哪些科目,主题才能应用可用的机器学习框架,尤其是。支持向量机

我想自学足够的机器学习,以便我能够首先理解足够的知识来使用可用的开源 ML 框架,这将使我能够做以下事情:

  1. 浏览来自某个站点的页面的 HTML 源并“了解”哪些部分构成内容,哪些广告以及哪些构成元数据(既不是内容也不是广告 - 例如 - TOC、作者简介等)

  2. 浏览来自不同站点的页面的 HTML 源并“分类”该站点是否属于预定义类别(将预先提供类别列表)1。

  3. ...文本和页面上的类似分类任务。

如您所见,我的直接要求是对不同数据源大量数据进行分类。

就我有限的理解而言,与使用 SVM 相比,采用神经网络方法需要大量的训练和维护?

我知道 SVM 非常适合像我这样的(二进制)分类任务,而像 libSVM 这样的开源框架相当成熟?

那么,计算机科学专业的毕业生现在需要学习哪些学科和主题,才能解决上述要求,使用这些框架?

我想远离 Java,这是可能的,否则我没有语言偏好。我愿意学习并尽我所能付出努力。

我的意图不是从头开始编写代码,而是首先让各种框架可供使用(虽然我不知道是哪一个),并且如果它们出错,我应该能够修复它们

你对学习统计学和概率论的特定部分的建议对我来说并不意外,所以如果需要的话就这么说吧!

如果需要,我将根据您的所有建议和反馈修改此问题。

0 投票
1 回答
1700 浏览

machine-learning - 新手:给定一个预测未来成功与否的问题,从哪里开始

我们有一个基于网络的生产产品,允许用户对商品的未来价值(或需求)进行预测,历史数据包含大约 100k 个示例,每个示例大约有 5 个参数;

考虑一类称为预测的数据:

以及衡量预测结果的配对结果类:

我们可以定义一个成功的测试用例,其中在预测时考虑方向和值时,如果任何两个未来值检查点是有利的。

在用户提交表单的那一刻,预测类中的所有内容都是已知的,而预测结果中的信息直到后来才知道;理想情况下,模型或算法可以从我们将算法应用于新预测的三年历史中推导出来,我们可以获得关于它是否会成功的概率(我会很高兴有一个布尔 Y/N 标志不管这是否有趣)。

我对机器学习知之甚少,我正在尝试通过材料来解决问题。但是,如果我能得到一些指导,那就太好了,这样我就可以研究和实践解决此类问题所需的确切方法。

谢谢

0 投票
1 回答
201 浏览

maven-2 - 带有分类器的工件未复制到本地存储库

我正在使用 Maven 版本 2.0.7,并且正在使用 javadoc 和源插件来创建其他工件以进行部署。所有生成的工件都​​正确部署,但似乎当其他人构建时,他们只会获得他们指定的特定工件。我不想将源代码和 javadoc 工件作为显式依赖项添加到其他项目中,但如果不更改某些内容,我看不到任何其他方式。

  • 这是我正在使用的 Maven 版本的预期行为吗?
  • 如果有的话,这会停止什么版本?
  • 有没有其他方法可以解决这个问题?
0 投票
2 回答
2017 浏览

c# - 将多维特征分为两组的神经网络示例

我正在寻找一个好的监督神经网络的源代码示例,它接受两个以上的特征(与大多数 XY 示例不同)并将数据分类为两组。根据我的阅读,支持向量机(SVM)可能是一个解决方案?

我发现的所有分类示例都是二维的。这里有几个:

我试图将罕见事件与许多通常稳定的输入区分开来。特征是键值对,其中的值通常可以离散化为一个小数。第一类的可用训练数据非常庞大,但第二类的训练集很少,如果这会有所不同的话。

示例训练集

甲类

B类

分类示例

信心评级,例如。“85% 确定 B”有助于区分罕见事件的阈值。

神经网络是最好的解决方案吗?是否有任何内置的 .NET 库?

0 投票
3 回答
1595 浏览

c# - 从多元时间序列间隔中检测罕见事件

给定传感器状态间隔的时间序列,我如何实现一个分类器,该分类器从受监督的训练数据中学习,以根据一系列状态间隔检测事件?为了简化问题,传感器状态被简化为truefalse

更新:我发现这篇关于时间间隔挖掘序列的论文 (PDF)解决了类似的问题。另一篇关于Mining Hierarchical Temporal Patterns in Multivariate Time Series的论文(Google Docs)采用了一种新颖的方法,但处理的是分层数据。

示例训练数据

以下数据是事件的训练示例,表示为随时间变化的图表,其中/¯¯¯\表示true状态间隔和传感器\___/false状态间隔。

事件检测 vs 序列标签 vs 分类

我最初将我的问题概括为两类序列标记问题,但我的类别确实代表“正常操作”和罕见的“警报事件”,所以我将我的问题改写为事件检测。训练数据可用于“正常操作”和“报警事件”。

为了降低问题的复杂性,我已将传感器事件离散化为布尔值,但情况并非如此。

可能的算法

隐马尔可夫模型似乎是一种可能的解决方案,但它能够使用状态区间吗?如果序列标记器不是解决此问题的最佳方法,我们将不胜感激其他建议。

贝叶斯概率方法

传感器活动在一天中的不同时间会有很大差异(早上很忙,晚上很安静)。我最初的方法是在几天内测量正常的传感器状态并按一天中的时间(小时)计算状态概率。在不太可能的时间超过“不可能阈值”的传感器状态的组合概率将表明发生了事件。但是,如果传感器嘈杂,这似乎会引发误报。我还没有实现这一点,但我相信这种方法是有好处的。

特征提取

矢量状态可以表示为在特定时间发生并持续特定持续时间的状态间隔变化。

例如。进程表中的一些状态间隔:

一个好的分类器会考虑状态值区间和最近的状态变化,以确定状态变化的组合是否与某个类别的训练数据紧密匹配。

编辑:关于如何从多个传感器的警报数据中提取特征以及如何将其与以前的数据进行比较的一些想法......

首先计算一天中每个小时的每个传感器的以下数据:

  • 平均状态间隔长度(对于truefalse状态)
  • 状态变化之间的平均时间
  • 状态随时间变化的次数

然后可以将每个传感器与矩阵中的每个其他传感器进行比较,数据如下:

  • 在传感器 A 之后,传感器 B 变为真实状态所需的平均时间。如果平均值是 60 秒,那么 1 秒的等待会比 120 秒的等待更有趣。
  • 当传感器 A 处于一种状态时,传感器 B 经历的平均状态变化次数

给定两组训练数据,分类器应该能够从这些特征集中确定最有可能进行分类的类别。

这是一种明智的方法吗?比较这些特征的好算法是什么?


编辑:状态变化(false->truevs true-false)的方向很重要,所以任何特性都应该考虑到这一点。

0 投票
15 回答
11761 浏览

java - 识别任意日期字符串

我需要能够识别日期字符串。如果我不能区分月份和日期(例如 12/12/10)也没关系,我只需要将字符串分类为日期,而不是将其转换为 Date 对象。所以,这实际上是一个分类而不是解析问题。

我将有一些文本,例如:

“bla bla bla bla 12 Jan 09 bla bla bla 01/04/10 bla bla bla”

我需要能够识别其中每个日期字符串的开始和结束边界。

我想知道是否有人知道任何可以做到这一点的java库。到目前为止,我的 google-fu 还没有提出任何建议。

更新:我需要能够识别最广泛的表示日期的方法。当然,天真的解决方案可能是为每种可能的格式编写一个 if 语句,但是具有训练有素的模型的模式识别方法是我所追求的理想选择。

0 投票
2 回答
2695 浏览

python - 在 PyML 中获取多类问题的召回率(灵敏度)和精度(PPV)值

我正在使用PyML进行 SVM 分类。但是,我注意到当我使用 LOO 评估多类分类器时,结果对象不会报告敏感度和 PPV 值。相反,它们是 0.0:

我查看了代码,但无法弄清楚这里出了什么问题。有人有解决方法吗?