问题标签 [metric]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mathematical-optimization - 多度量学习的“替代优化”方法
在度量学习的训练过程中,如果代价函数是凸的,那么我可以使用梯度下降法,得到最优解。
现在,我想从一个训练集中训练 N(N 可能非常大,比如 100) 个度量,一种方法是调整成本函数,使这些 N 个度量组合成一个大度量矩阵,并使用梯度下降法, 但是,如果 N 很大,这种方法不是很好,在这种情况下,有没有我可以使用的“替代优化”方法?,我可以固定 2th~Nth 指标并只进行梯度下降第 1 个度量,然后固定第 1、3~N 个度量,并仅对第 2 个度量进行梯度下降。这种“替代优化”方法是否存在一些必要条件
r - R中的快速rdist替换接受自定义距离度量
我必须计算二维点的成对距离。这些点存储在一个矩阵中,第一列包含 x 值,第二列包含 y 值。我需要的距离函数不是欧几里得度量,而是一些自定义度量。
对于欧几里得距离,使用包中的rdist()
函数fields
会给我想要的东西:
为了使用我自己的度量,我编写了一个简单的rdist()
替换来计算点的距离:
这也可以按预期工作,但速度非常慢。该my_rdist()
功能大约需要 20 分钟,而包中的rdist()
功能fields
需要不到 2 秒。(目前的自定义指标只是计算欧几里得距离的平方。这个想法是在我的数据集的以下处理中惩罚更大的距离。)
rdist()
有没有我不知道可以处理自定义指标函数的替代品?或者你能给我一些提示来加快我的my_rdist()
功能吗?我很新,R
所以也许我犯了一些明显的错误。
r - 带有几个表达式的情节标题很好,但不再起作用
我曾经在stackoverflow上问过以下问题:
老问题要求连续有几个表达式的情节标题 以下答案对我来说很好:
我在一个函数中实现了它。今天我想使用该功能,但收到以下错误消息:
我绝对不知道该怎么做才能让这个解决方案再次工作......
c++ - OpenCV中颜色差异的简单度量?
我有两个cv::Scalar
对象,我想计算色差。
我想出了这段代码:
这看起来相当笨拙。有没有更简单的方法来表达这个或另一个度量,例如表达点积d*d
的方法,或者直接说距离的方法 two cv::Scalar
,或者cv::Vec4i
,它可以被铸造成afaik?
scikit-learn - 为什么logloss是负数?
我刚刚将 sklearn 中的日志损失应用于逻辑回归:http ://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html
我的代码看起来像这样:
但是,我想知道为什么产生的对数损失是负数。我希望它们是正数,因为在文档中(请参阅上面的链接)日志损失乘以 -1 以将其转换为正数。
我在这里做错了吗?
java - 用于度量目的的 Dropwizard/Jersey 自定义方法注释
有谁知道如何创建自定义注释,例如传入字符串数组参数的数量?像这样的东西:
并且应该使用某种代码来衡量:
我怎样才能实现这个?有什么想法吗?
这无济于事:
- 使用 Jersey 的 AbstractHttpContextInjectable 的自定义方法注释不起作用
- https://gist.github.com/ryankennedy/6688601 -> 缺少如何添加 ito DW 服务。
对于 2.): 添加你的 run():
与这个类:
它适用于这种特殊情况。
python - 什么是分析聚类算法输出质量的好指标?
我一直在尝试 scipy 中的 kmeans 聚类算法实现。是否有任何标准的、定义明确的指标可用于衡量生成的集群的质量?
即,我有由 kmeans 聚类的数据点的预期标签。现在,一旦我得到已经生成的集群,我如何评估这些集群相对于预期标签的质量?
python - 如何将 sklearn 的 DBSCAN 与球面度量一起使用?
我有一组分布在球体上的数据,我试图了解必须为 scikit-learn 分发的函数 DBSCAN 提供哪些指标。它不能是欧几里得度量,因为点分布的度量不是欧几里得。在 sklearn 数据包中,是否有针对此类情况实施的度量标准,或者将数据划分为小子集是最简单(如果冗长且乏味)的方法吗?
PS我是python的菜鸟
PPS 如果我“预计算”指标,我必须以什么形式提交我的预计算数据?像这样?
0 - 事件1 - 事件2 - ...
事件 1 - 0 - 距离(事件 1,事件 2) - ...
事件 2 - 距离(事件 1,事件 2) - 0
请帮忙?
c - 计算 C 函数中所有可能执行路径的数量
我正在拼命寻找一种方法来轻松计算 C 函数中所有可能的执行路径的数量。
例如,对于以下函数,我希望得到 3 的结果(如果有机会基于 'i' 进入任何 'if' 语句的值)
java - Java中基于度量距离的快速字符串检索
给定一个任意字符串s,我想要一种方法从一大组字符串 M (其中 |M| > 100 万)中快速检索所有字符串 S ⊆ M ,其中 S 的所有字符串具有最小编辑距离 < t (一些最小值阈值)来自s。
在最坏的情况下,如果 M 中没有符合此条件的字符串,则 S 可能为空,而在最好的情况下,S = { s }(完全匹配)。对于介于两者之间的任何情况,我完全预计 S 可能会很大。
一般来说,我希望最大编辑距离阈值是固定的(例如,2),并且需要在任意字符串s上多次执行此操作,因此需要一种有效的方法,因为天真地迭代和测试所有字符串将是太贵了。
虽然我使用编辑距离作为示例指标,但我也想使用其他指标,例如 Jaccard 索引。
任何人都可以对可以实现此目标的现有 Java 实现提出建议,或者指出我解决此问题的正确算法和数据结构吗?
更新#1
从那以后,我了解到度量树正是我所追求的那种结构,它利用距离度量来组织 M 中的字符串子集,基于它们与度量之间的距离。Vantage-Point、BK和其他类似的度量树数据结构和算法似乎都非常适合这类问题。现在,要在 Java 中找到易于使用的实现......
更新#2
使用这个bk-tree和这个Levenshtein 距离实现的组合,我能够成功地从一百万个字符串的集合 (M) 中检索任意字符串的子集,检索时间约为 10 毫秒。