问题标签 [metric]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何将系统性能值量化为单个性能值
我有一个项目,我在一个网格中有多个节点,它们作为存储和计算节点运行。这些节点是异构的,从专用服务器硬件到alix 板,甚至是运行 OpenWRT 的 Mikrotik 路由器板(尽管主要由 alix 板组成)。
我正在通过sigar java API收集系统性能指标,例如 RAM、SWAP 和 CPU 使用率。这工作得很好。
我的下一个任务是获取这些性能值并将它们组合起来,以便我能够以这样一种方式对我的主机进行排序,以便我可以说出哪个主机最能处理计算请求。这几乎可以被认为是 Windows 使用 Windows 性能指数为您的计算机提供性能分数的相同方式。
我的第一次尝试是添加 RAM、SWAP 和 CPU 使用率的使用百分比(对于 Linux,我将负载值缩放到 0 到 1 之间的值)。然后选择得分最低的主机进行计算操作。
有没有人对如何做到这一点有更好的想法。我的方式感觉非常“hacky”,而不是我想要处理这个项目中的工作的那种方式。
谢谢
cluster-analysis - 有人可以给我一些在 k-means 中使用不同距离度量的例子吗?
因此,我正在考虑对 k 均值使用不同的距离度量,例如欧几里德距离、曼哈顿距离、余弦距离、切比雪夫距离等。我只想知道这些与聚类相关的距离度量的用例。
optimization - 基于度量/密度的聚类/分组
我有有限数量的点(云),并在它们上定义了一个度量。我想在这个云中找到最大数量的集群,这样:
1) 一个簇中任意两点之间的最大距离小于给定的 epsilon ( const )
2) 每个簇中恰好有 k ( const ) 个点
我查看了各种不同的聚类方法,并且限制内部最大距离的聚类不是问题(基于密度)。2)约束和找到“最大数量的集群 st”的要求似乎是有问题的。对于有效的解决方案有什么建议吗?
谢谢阿~
c++ - 近似字符串匹配的概率预选
我最近的任务是开发一种算法来检查数据库中的重复客户记录。DB 布局非常简单:数以万计的行,包含 FullName、Street、City、ZIP、Phone 等字段。
先说一点背景:
我对算法进行了一些广泛的研究,并决定每个领域都应该使用不同的算法进行一定程度的权衡,因为并非所有领域在所有情况下都表现得一样好。例如,姓氏的权重因子为 0.50。当我评估时,我会选择要使用的算法以及它们对最终决定的影响:
因子 0.25:JaroWinkler
因子 0.60:余弦 2-Gram 相似
因子 0.15:DamerauLevenshtein
一切运行良好,稍加调整后,我检测到的积极因素几乎没有错误。到现在为止还挺好。但是,正如您可以想象的那样,在处理数万条记录时,运行时间为 O(n^2) - 或者实际上是 E 从 i=0 到 i=n - 并不是很有效。不用说,积极优化,使用编译器优化速度,多线程等,只是创可贴,因为真正的问题是复杂性。
本质上,我正在寻找一种预先过滤潜在匹配的方法,并且现在已经对此进行了三天的研究。我发现了一些关于 R-Trees、R*-Trees、KD-Trees、欧几里德向量、minhashing 等的有价值的信息。然而,关于所有这些的大多数信息都是相当学术性的。我发现的最有价值的资源是“挖掘海量数据集”,第 3 章。
现在到我真正的问题:
我已经阅读了所有这些信息,但我不确定如何将它们放在一起。
我正在考虑在树或图形数据结构中进行某种索引,我可以在其中输入一个字符串并说“找到所有匹配概率> 0.20的人”。这个算法应该非常快。然后,当我得到一个潜在的(>0.20)匹配列表时,我可以去比较几个项目和我的“昂贵”但有选择性的算法。我认为这应该将运行时间减少到一个非常合理的值。
我一直在尝试找到某种参考代码来做我想做的上面的事情,但除了学术文章之外,我似乎没有想出任何东西。我确实找到了实际编译的“simstring”,但似乎与 7 条测试记录不太匹配。有人能指出我正确的方向吗?肯定有人以前遇到过这个问题并找到了解决方案......
非常感谢您!
PS 我在 C++ 中执行此操作,但 C#/C/Java/PHP 中的任何示例都可以。
plugins - 声纳插件:如何获取声纳的指标
我正在做一个 Sonar 项目,我必须制作一个插件才能获取指标并计算它们。
为了了解它是如何工作的,我想尝试做以下示例:
- 获取值(复杂度)并将其计算为双精度或浮点值。
- 取复杂度值(MetricsCore.COMPLEXITY),如果超过200,写一条消息说它太复杂了。
- 取注释行数并乘以 10。
我知道在这些示例中我想做的事情是无用的,但它只是为了了解如何获取 Metrics Core 价值并获取它们的价值,并创建新的 Metrics。我没有找到很多文档....
非常感谢你
有关信息,我将使用 Sonar-reference-plugin。
amazon-ec2 - 我可以在不向 CloudWatch 仪表板添加警报的情况下定义具有扩展策略的 EC2 自动扩展组吗?
我按照http://docs.aws.amazon.com/AutoScaling/latest/DeveloperGuide/as-scale-based-on-demand.html上的说明创建了一个基于 CPUUtilization 的自动缩放组。我注意到由 mon-put-metric-alarm 创建的警报会创建列在 cloudwatch 仪表板上的警报。这意味着在低 cpu 利用率下,我总是有一个处于 ALARM 状态的指标。我可以在 CloudWatch Web 界面中隐藏自动缩放指标吗?
c++ - 度量标准是什么?为什么程序员应该关心?- 联网
我的理解是,通过“度量”或“度量”我们描述了通过网络传输的包的长度(以字节为单位?),问题是据我所知这个值与 ISP 相关,几乎不可能找到甚至 2 个具有相同指标的 ISP。
如果我正在编写 P2P 软件以保持 2 个软件同步,并且我想估计我的数据包的最佳大小是多少,那么将指标保留在计数中是否有意义,尤其是因为这是一个与 ISP 相关的值全世界有很多 ISP 吗?我应该应用一些“启发式算法”,比如假设最好的指标是最低的,我只是继续为最长的填充添加空值?
谢谢。
PS,如果您需要一个示例的起点,我更喜欢 C++ 中的东西,因为我目前对这种语言感兴趣。
编辑:回顾一下您可以在下面找到的评论:看起来我的问题太笼统了,现在我专注于 MTU 和延迟(滞后),以使事情更直截了当。
newrelic - New Relic 可定制板
我想在 NewRelic 的一个页面上有几个不同的图表(即两个不同应用程序的应用程序服务器响应时间)......
这是否可以通过某种可定制的 New Relics 板实现,我可以在其中添加我想要的图表?
python - 查找两个字符串之间的相似度度量
如何获得一个字符串与 Python 中另一个字符串相似的概率?
我想得到一个十进制值,比如 0.9(意思是 90%)等。最好使用标准 Python 和库。
例如
algorithm - 模拟性能指标
这是一个半宽泛的问题,但我觉得在某种程度上是可以回答的,或者至少是平易近人的。
我花了上个月左右的时间进行了相当广泛的模拟。为了保护我的雇主的利益,我不会具体说明它是做什么的......但它的作用可以用......高中舞蹈来解释。
一个女孩或男孩进入舞池,根据自由舞伴的选择,做出最佳选择。一段时间后,两名舞者跳完舞,现在可以自由地进行新的合作。
我一直在制作合作伙伴选择算法,旨在最大化平均匹配结果,同时又不会过多牺牲合作伙伴的等待时间。
我想要一种方法来衡量/比较我的算法版本,以便为任何情况选择最佳算法。然而,这很困难,因为我的模拟输入是非常大的输入参数矩阵(每个舞者 2-5 个),并且模拟需要几分钟才能运行(这一事实使得很难测试大量模拟输入)。我有一些输出指标,但将它们与大量输入联系起来非常困难。我也有兴趣找出在某些输入条件下哪些算法完全失败......
任何专业提示/在线资源可能会帮助我定义输入约束/输出变量,从而清楚地了解最佳算法?