performance - 应用程序性能的基线和基准之间的差异

Question

什么是基线，什么是基准？这些的最佳定义是什么？您如何为一组数字设置基准并以另一组为基准？

score 8 · Accepted Answer

SPR（软件生产力研究）的有趣定义

基线和基准是相似但不同的活动。

形象地说，基线是组织的“沙线”，它衡量重要的绩效特征以供将来参考。

这不一定是“好”状态，只是一个参考。

基准最好通过单词本身的原始派生来理解：

从事重复性工作的工匠，例如将木材锯成一致的长度，通常在他们的工作台上放置凹口，以指示切割前木板的放置。从字面上看，基准成为比较的标准和过去成功的指标。

基本上：

基线是关于重要状态的识别，这意味着您的一组数字达到了批准状态，公开认可。
基准是关于评估应用程序的相对性能。

score 5 · Accepted Answer

嗨 Gagneet，我是 Windows 性能团队的成员：以下是我们使用这些术语的方式。

基线是对已知配置的测量，用作后续测量的参考。对于基线，我们描述了被测量的东西：让我们以冷启动时间为例。在这里，我们有一组具有良好特征的机器——这意味着我们知道它们是如何工作的，我们为它们提供了良好的驱动程序，并且硬件没有损坏或有缺陷。

在这个硬件上，我们有几个“基线”测量，例如 XP-RTM、XP-SP2、Vista-RTM、Vista-SP1、Vista-SP2 等。

对于这些基线中的每一个，我们都有一组特征明确且易于理解的测量值，包括启动的所有阶段、CPU 数量、磁盘和内存利用率、DLL 加载次数等。

建立基线后，我们可以进行其他测量并将它们与基线进行比较。例如，我们目前正在开发Window-7。对于每个构建（每天），我们都会运行一组启动时间测试。我们将每个 Win-7 版本的所有特性与基线测量值进行比较。这包括所有以前的 Win-7 版本。这让我们可以看到差异在哪里，并帮助我们深入研究问题区域。这里有更多细节。

score 3 · Accepted Answer

在科学研究中，基准是一种测试，基线是一种结果。

让我们看一个基准测试的例子：我们可能会收集 5,000 个英语句子，并使用实验室的四核戴尔机器使用各种算法将它们翻译成西班牙语。因为我们保持数据和机器不变，我们可以有意义地比较不同算法完成任务所花费的时间，以及它们的相对准确性（根据黄金标准的人工翻译来衡量）。

为了找到这个基准测试的基线，我们可能会编写一个非常简单的翻译算法，它只为每个单词找到最常见的翻译，而不考虑上下文。根据我们的人工翻译测量该算法的准确性，让我们了解其他人必须击败的最低分数（基线），并让我们了解什么水平的准确性算作“好”。

在基准线的另一端，上限也是一个有用的标准。在翻译示例中，我们可以通过测量我们的人工翻译之一相对于其他翻译的准确性来找到上限。这让我们知道在你达到人类分歧的天花板之前，我们的“准确性”衡量标准有多高。我们希望我们的机器翻译算法在基线和上限之间的水平上执行。

score 1 · Accepted Answer

如果我错了，请纠正我，但我相信“基线”是指已知的良好状态，而“基准”是指当前状态。您将进行基准测试并将其与基线进行比较。

performance - 应用程序性能的基线和基准之间的差异

4 回答 4

Related

Reference