“metric”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

129 浏览

java - 如何将系统性能值量化为单个性能值

我有一个项目，我在一个网格中有多个节点，它们作为存储和计算节点运行。这些节点是异构的，从专用服务器硬件到alix 板，甚至是运行 OpenWRT 的 Mikrotik 路由器板（尽管主要由 alix 板组成）。

我正在通过sigar java API收集系统性能指标，例如 RAM、SWAP 和 CPU 使用率。这工作得很好。

我的下一个任务是获取这些性能值并将它们组合起来，以便我能够以这样一种方式对我的主机进行排序，以便我可以说出哪个主机最能处理计算请求。这几乎可以被认为是 Windows 使用 Windows 性能指数为您的计算机提供性能分数的相同方式。

我的第一次尝试是添加 RAM、SWAP 和 CPU 使用率的使用百分比（对于 Linux，我将负载值缩放到 0 到 1 之间的值）。然后选择得分最低的主机进行计算操作。

有没有人对如何做到这一点有更好的想法。我的方式感觉非常“hacky”，而不是我想要处理这个项目中的工作的那种方式。

谢谢

2013-01-15T17:37:00.583

0 投票

1 回答

1242 浏览

cluster-analysis - 有人可以给我一些在 k-means 中使用不同距离度量的例子吗？

因此，我正在考虑对 k 均值使用不同的距离度量，例如欧几里德距离、曼哈顿距离、余弦距离、切比雪夫距离等。我只想知道这些与聚类相关的距离度量的用例。

cluster-analysis distance data-mining k-means metric

2013-01-23T13:31:01.513

0 投票

2 回答

220 浏览

optimization - 基于度量/密度的聚类/分组

我有有限数量的点（云），并在它们上定义了一个度量。我想在这个云中找到最大数量的集群，这样：

1) 一个簇中任意两点之间的最大距离小于给定的 epsilon ( const )

2) 每个簇中恰好有 k ( const ) 个点

我查看了各种不同的聚类方法，并且限制内部最大距离的聚类不是问题（基于密度）。2）约束和找到“最大数量的集群 st”的要求似乎是有问题的。对于有效的解决方案有什么建议吗？

谢谢阿~

optimization cluster-analysis max metric

2013-02-15T18:53:17.840

0 投票

2 回答

423 浏览

c++ - 近似字符串匹配的概率预选

我最近的任务是开发一种算法来检查数据库中的重复客户记录。DB 布局非常简单：数以万计的行，包含 FullName、Street、City、ZIP、Phone 等字段。

先说一点背景：

我对算法进行了一些广泛的研究，并决定每个领域都应该使用不同的算法进行一定程度的权衡，因为并非所有领域在所有情况下都表现得一样好。例如，姓氏的权重因子为 0.50。当我评估时，我会选择要使用的算法以及它们对最终决定的影响：
因子 0.25：JaroWinkler
因子 0.60：余弦 2-Gram 相似
因子 0.15：DamerauLevenshtein

一切运行良好，稍加调整后，我检测到的积极因素几乎没有错误。到现在为止还挺好。但是，正如您可以想象的那样，在处理数万条记录时，运行时间为 O(n^2) - 或者实际上是 E 从 i=0 到 i=n - 并不是很有效。不用说，积极优化，使用编译器优化速度，多线程等，只是创可贴，因为真正的问题是复杂性。

本质上，我正在寻找一种预先过滤潜在匹配的方法，并且现在已经对此进行了三天的研究。我发现了一些关于 R-Trees、R*-Trees、KD-Trees、欧几里德向量、minhashing 等的有价值的信息。然而，关于所有这些的大多数信息都是相当学术性的。我发现的最有价值的资源是“挖掘海量数据集”，第 3 章。

现在到我真正的问题：

我已经阅读了所有这些信息，但我不确定如何将它们放在一起。

我正在考虑在树或图形数据结构中进行某种索引，我可以在其中输入一个字符串并说“找到所有匹配概率> 0.20的人”。这个算法应该非常快。然后，当我得到一个潜在的（>0.20）匹配列表时，我可以去比较几个项目和我的“昂贵”但有选择性的算法。我认为这应该将运行时间减少到一个非常合理的值。

我一直在尝试找到某种参考代码来做我想做的上面的事情，但除了学术文章之外，我似乎没有想出任何东西。我确实找到了实际编译的“simstring”，但似乎与 7 条测试记录不太匹配。有人能指出我正确的方向吗？肯定有人以前遇到过这个问题并找到了解决方案......

非常感谢您！

PS 我在 C++ 中执行此操作，但 C#/C/Java/PHP 中的任何示例都可以。

c++string matching metric approximate

2013-02-19T23:56:11.403

0 投票

1 回答

1128 浏览

plugins - 声纳插件：如何获取声纳的指标

我正在做一个 Sonar 项目，我必须制作一个插件才能获取指标并计算它们。

为了了解它是如何工作的，我想尝试做以下示例：

获取值（复杂度）并将其计算为双精度或浮点值。
取复杂度值（MetricsCore.COMPLEXITY），如果超过200，写一条消息说它太复杂了。
取注释行数并乘以 10。

我知道在这些示例中我想做的事情是无用的，但它只是为了了解如何获取 Metrics Core 价值并获取它们的价值，并创建新的 Metrics。我没有找到很多文档....

非常感谢你

有关信息，我将使用 Sonar-reference-plugin。

plugins sonarqube metric

2013-03-27T22:31:08.933

0 投票

2 回答

1000 浏览

amazon-ec2 - 我可以在不向 CloudWatch 仪表板添加警报的情况下定义具有扩展策略的 EC2 自动扩展组吗？

我按照http://docs.aws.amazon.com/AutoScaling/latest/DeveloperGuide/as-scale-based-on-demand.html上的说明创建了一个基于 CPUUtilization 的自动缩放组。我注意到由 mon-put-metric-alarm 创建的警报会创建列在 cloudwatch 仪表板上的警报。这意味着在低 cpu 利用率下，我总是有一个处于 ALARM 状态的指标。我可以在 CloudWatch Web 界面中隐藏自动缩放指标吗？

amazon-ec2 autoscaling amazon-cloudwatch metric

2013-04-25T08:22:39.830

0 投票

3 回答

149 浏览

c++ - 度量标准是什么？为什么程序员应该关心？- 联网

我的理解是，通过“度量”或“度量”我们描述了通过网络传输的包的长度（以字节为单位？），问题是据我所知这个值与 ISP 相关，几乎不可能找到甚至 2 个具有相同指标的 ISP。

如果我正在编写 P2P 软件以保持 2 个软件同步，并且我想估计我的数据包的最佳大小是多少，那么将指标保留在计数中是否有意义，尤其是因为这是一个与 ISP 相关的值全世界有很多 ISP 吗？我应该应用一些“启发式算法”，比如假设最好的指标是最低的，我只是继续为最长的填充添加空值？

谢谢。

PS，如果您需要一个示例的起点，我更喜欢 C++ 中的东西，因为我目前对这种语言感兴趣。

编辑：回顾一下您可以在下面找到的评论：看起来我的问题太笼统了，现在我专注于 MTU 和延迟（滞后），以使事情更直截了当。

c++c networking p2p metric

2013-05-25T06:30:14.617

0 投票

1 回答

189 浏览

newrelic - New Relic 可定制板

我想在 NewRelic 的一个页面上有几个不同的图表（即两个不同应用程序的应用程序服务器响应时间）......

这是否可以通过某种可定制的 New Relics 板实现，我可以在其中添加我想要的图表？

newrelic metric

2013-06-21T13:42:57.563

0 投票

14 回答

305716 浏览

python - 查找两个字符串之间的相似度度量

如何获得一个字符串与 Python 中另一个字符串相似的概率？

我想得到一个十进制值，比如 0.9（意思是 90%）等。最好使用标准 Python 和库。

例如

python probability similarity metric

2013-06-30T07:35:23.780

0 投票

1 回答

347 浏览

algorithm - 模拟性能指标

这是一个半宽泛的问题，但我觉得在某种程度上是可以回答的，或者至少是平易近人的。

我花了上个月左右的时间进行了相当广泛的模拟。为了保护我的雇主的利益，我不会具体说明它是做什么的......但它的作用可以用......高中舞蹈来解释。

一个女孩或男孩进入舞池，根据自由舞伴的选择，做出最佳选择。一段时间后，两名舞者跳完舞，现在可以自由地进行新的合作。

我一直在制作合作伙伴选择算法，旨在最大化平均匹配结果，同时又不会过多牺牲合作伙伴的等待时间。

我想要一种方法来衡量/比较我的算法版本，以便为任何情况选择最佳算法。然而，这很困难，因为我的模拟输入是非常大的输入参数矩阵（每个舞者 2-5 个），并且模拟需要几分钟才能运行（这一事实使得很难测试大量模拟输入）。我有一些输出指标，但将它们与大量输入联系起来非常困难。我也有兴趣找出在某些输入条件下哪些算法完全失败......

任何专业提示/在线资源可能会帮助我定义输入约束/输出变量，从而清楚地了解最佳算法？

algorithm optimization benchmarking metric

2013-07-16T18:57:37.777

问题标签 [metric]

Reference