20

我想用 Java 编写一个“智能监视器”,它会在检测到即将出现的性能问题时发出警报。我的 Java 应用程序正在将结构化格式的数据写入日志文件:

<datetime> | <java-method> | <seconds-to-execute>

因此,例如,如果我有一个Widget#doSomething(String)执行时间为 812 毫秒的方法,它将被记录为:

2013-03-24 11:39:21 | Widget#doSomething(String) | 812

随着性能开始下降(例如在主要收集期间、峰值负载期间或系统只是缓慢爬行),方法执行时间开始减慢;所以最右边的列开始看到巨大的数字(有时 20 - 40 秒来执行一个方法)。

在大学里——为了一个机器学习练习——我写了我的教授所说的线性二分法,它采用简单的测试数据(一个人的身高、体重和性别),并“学习”了如何根据他们将一个人分类为男性或女性身高体重。然后,一旦它拥有了所有的训练数据,我们就给它提供了新的数据,看看它可以多准确地确定性别。

认为线性二分法的多元版本称为支持向量机(SVM)。如果我错了,请澄清一下,我会将问题的标题更改为更合适的名称。无论如何,我需要这个应用程序来做以下事情:

  • 在“测试模式”下运行,我从我的主 Java 应用程序(我希望监控的应用程序)向它提供结构化日志文件,它获取每个日志条目(如上所示)并将其用于测试数据
    • 只有java-methodseconds-to-execute列作为输入/测试数据很重要;我不在乎日期时间
  • 在“监控模式”下运行,它会主动从日志文件中读取新的日志数据,并使用类似的“机器学习”技术来确定是否即将出现性能下降

重要的是要注意,该seconds-to-execute列并不是这里唯一重要的因素,因为我已经看到某些方法在性能出色的时期非常糟糕,而在服务器似乎快要死机的时候,其他方法的时机非常好并推雏菊。因此,显然某些方法比其他方法“加权”/对性能更重要。

我的问题

  • 谷歌搜索“线性二分法”或“支持向量机”会发现一些非常可怕的、高度学术的、超大脑的白皮书,我只是没有精力(也没有时间)去消耗——除非它们真的是我唯一的选项; 所以我问是否有外行对这些东西的介绍,或者有一个很棒的网站/文章/教程来用 Java 构建这样的系统
  • 是否有任何可靠/稳定的开源 Java 库?我只能找到jlibsvmsvmlearn但前者看起来处于纯 beta 状态,而后者似乎只支持二元决策(比如我的旧线性二分法器)。我知道有Mahout,但它位于 Hadoop 之上,我认为我没有足够的数据来保证建立自己的 Hadoop 集群的时间和精力。

提前致谢!

4

4 回答 4

7

您描述的“智能监视器”正是时间序列分类。

有很多分类算法。它们基本上都采用一个矩阵,其中行是观察结果,列是以某种方式描述观察结果的“特征”,以及长度为 0 或 1 的行的标签向量。在您的问题中,观察结果可能是一个微小的样本,并且在遇到性能问题的时间段内,您的标签向量的值为 1,否则为 0。

此定义中隐含的是需要对数据进行重新采样(必要时使用众数/中值/平均值),以便均匀地定义每个观察值,例如秒、分钟或小时。

生成特征是关键部分。我可能会从 2 个特征开始,即原始值和观察 x_i 和 x_i-1 之间的(一次)差异值。我们将这些定义为滞后 2。从技术上讲,这 4 个特性。每个功能都无法展望未来。对于每个观察,每个特征必须代表相同的事物。

例如考虑长度为 10 的时间序列:

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

如果我们想在过去使用滞后两个间隔生成一组特征,那么时间序列的前两个元素被认为是老化样本。我们不能使用与它们相关的观察来训练算法。

8 行 2 列的原始值将是

[[ 1.,  0.]
 [ 2.,  1.],
 [ 3.,  2.],
 [ 4.,  3.],
 [ 5.,  4.],
 [ 6.,  5.],
 [ 7.,  6.],
 [ 8.,  7.]]

差异

[[ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.]])

这些得到列堆叠。您可以探索许多其他功能。滚动平均将是我的下一个选择。

如果您想在未来进一步预测,那么您的训练数据应该比您的标签向量更滞后。

如果性能不令人满意,请尝试通过在更大的窗口上选择滚动平均值来添加更多功能,或者在将来添加更多功能。提高时间序列算法性能的一个巧妙技巧是包含前一个时间间隔的预测值。

将分类器拟合到数据的早期部分,然后观察其在数据后期部分的准确性。您可以使用许多分类器指标。如果您选择使用输出概率而不是硬 1/0 的分类器,那么您的选择范围甚至会扩大。(就像你的分类器的用途一样。)

准确率和召回率是分类器的直观性能指标。

在数据的前半部分(早期)进行训练并在后半部分(稍后)进行测试。

就算法而言,我会研究逻辑回归。如果性能不令人满意并且您已经用尽了特征提取选项,我只会寻找其他地方。

Mallet似乎是一个很好的库来完成这项任务。请参阅文档的这一位。

我最近发现了JSAT,它看起来很有希望。

有更具体的时间序列分类方法明确考虑了观察和标签的顺序性质。这是分类对时间序列的通用改编。

于 2013-03-25T23:33:05.770 回答
6

如果您对使用支持向量机感兴趣,这里有一个非常适合初学者的指南,您可能会觉得有用(http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

该指南来自 libsvm 的同一个人,这是一个非常成熟的支持向量机库(http://www.csie.ntu.edu.tw/~cjlin/libsvm/),它们确实具有 Java 绑定(http: //www.csie.ntu.edu.tw/~cjlin/libsvm/#java )

于 2013-03-26T13:11:02.327 回答
3

Weka 是一个流行的 Java 机器学习/数据挖掘包。这本书http://guidetodatamining.com/可能有用。它并没有真正解决 SVM,但它肯定有很好的分类算法,而且它肯定一点也不深奥。

于 2013-03-26T07:47:02.173 回答
1

也许Apache Spark MLlib会帮助你:

线性 SVM 是大规模分类任务的标准方法。它是一种线性方法,如上面等式 (1) 中所述,公式中的损失函数由铰链损失给出:

L(w;x,y):=max{0,1−ywTx}。

默认情况下,线性 SVM 使用 L2 正则化进行训练。我们还支持替代 L1 正则化。在这种情况下,问题变成了一个线性程序。

线性 SVM 算法输出一个 SVM 模型。给定一个新的数据点,用 x 表示,模型根据 wTx 的值进行预测。默认情况下,如果 wTx≥0,则结果为正,否则为负。

于 2015-03-05T10:54:26.990 回答