问题标签 [ranking-functions]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sorting - 如何对大型数据集中的多个变量进行排名?
我有一个包含大约 5000 万条记录的数据集,其中包含大约 30 个变量(列)。我需要对每个变量的数据集进行排名。
Proc rank 不起作用,因为它需要大量内存来存储这个大型数据集。
要手动给出排名,我必须对相应变量列上的数据集进行排序,然后使用公式给出排名。但问题是我们必须对 30 个变量的数据集进行 30 次排序,这将花费非常长的时间并且不可行。
在这种情况下我们可以使用哪些替代品?
ranking - 两阶段文档检索中的排序评价方法
我创建了一个基于查询-文档对之间的文本相似度(余弦相似度)的两阶段排名系统。现在我需要验证我的排名系统,对于用户而言,检索到的适当排名的项目是否正确,我应该选择哪种方法。我阅读了 Pointwise/Pairwise/Listwise 方法来验证排名,但对于排名系统的手动评估,这会更有帮助。如果有人可以为排名评估方法提供更好的策略,那对我将非常有帮助。谢谢
sql - SQL 密集排序函数
我有一个名为employees 的表,带有'employee_id'
和'bonuses'
作为列。重复employee_id是因为它们有多个不同金额的奖金,我想按奖金总额对它们进行排名。
所以,我想知道这是否是按员工总奖金金额降序排列的正确方法:
我想要的输出是一个表,其中employee_id
仅列出一次、对应total bonus amount the employee received
的 和rank of bonuses starting from rank #1 with the highest total bonus amount
.
java - What metrics can I use to validate and test RankNet in the RankLib library in the Lemur Project?
I am currently using the RankLib implementation of the RankNet algorithm (-ranker 4) with a held-out set. I am using the jar file in terminal to run this.
The documentation stipulates:
metric2t (e.g. NDCG, ERR, etc) only applies to list-wise algorithms (AdaRank, Coordinate Ascent and LambdaMART). Point-wise and pair-wise techniques (MART, RankNet, RankBoost), due to their nature, always use their internal RMSE / pair-wise loss as the optimisation criteria.
However, when I set the 'metrics2t' to ERR@10 or NDCG@10, it starts to train and validate on my chosen metric rather that 'RMSE'.
This is part of the table outputted when I run RankNet with ERR@10.
Is there something that I am missing as this seems to be a contradiction to me.
Thanks.
json - 如何将文档转换服务与 Watson Retrieval and Ranking 连接起来
我有 100 个 pdf 文件。我使用 Watson 文档转换服务将 pdf 文档转换为 JSON 应答单元。现在我需要训练这些文件。
我编写了需要 JSON 答案单元和文档相关性分数作为 Watson R 和 R 的输入的 python 代码。如何通过 python 代码引用 JSON 答案单元或如何通过 Python API 从文档转换服务下载 JSON 答案单元
r - 在 R 中对模型进行评分和排名
我正在使用各种模型(例如 Arima、H2O.Randomforest、glmnet、lm 和其他一些模型)对 R 中的多元时间序列数据进行预测建模。
我创建了一个函数来选择我们选择的模型并进行预测。
现在我应该通过在预测值和观察值之间找到准确性来自动化这些RMSE
模型MAPE
。我想根据表现为每个人提供分数(例如,满分 5 分)。例如,如果Arima
给出的RMSE
模型比其他模型低,它将被评为高,第二低的RMSE
模型将得分低于Arima
,依此类推。
每次我使用不同的输入 Data 运行这些模型时,它都必须给出模型的平均分数。我想说的是,
每次我用不同的输入运行它时,我都想要一个该模型的平均分数。它更像是评分和排名方法。
R 中是否有任何方法或包可以一瞥它是如何完成的?或任何例子?任何建议都会非常有帮助。我什至在交叉验证中分享了我的问题。
谢谢你。
sql-server - SQL Server 排名 - 忽略重复的行值
我希望有人可以在这里为我指明正确的方向。对于 SQL Server 表中的记录排名,我有一个独特的要求。桌子长这样...
此表显示健身俱乐部的成员及其各种状态变化(A = 活跃,C = 已取消)。我想以一种独特的方式对这些状态变化进行排名。我想首先 A 记录为 1,然后忽略接下来的 3 个 A 记录。然后,第一个 C 记录也将排名 1,随后的 A 记录将排名 2。同样,我想在下一个 C 记录之前忽略以下 3 个 A 记录。
您可能想知道为什么我们会在新到/从时间段连续看到多个相同的状态。这是 b/c,它来自一个更大的数据集,其中其他列实际上已更改,而状态保持不变。我的最终目标是只提出相关(排名)的行并根据排名匹配活动/取消的行。然后我会创建一个全新的表/查询来为不同时期建立新的从/到日期。
感谢您提供的任何建议!!