问题标签 [weighting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
565 浏览

r - 使用预测函数加权

我已经使用“预测”为我创建的线性模型(lm)找到了一条拟合线。因为 lm 只建立在 2 个数据点上并且需要有一个正斜率,所以我强迫它通过原点 (0,0)。我还根据每个数据点的观察次数对函数进行了加权。

问题 1:(已解决 - 参见 @Gregor 的评论)为什么当 B 的基础观察值较少时,预测线与我的第二个数据点 (B) 比我的第一个数据点 (A) 更接近?加权模型时我在这里编码错误吗?

问题 2:现在绘制 GLM (link=logit),但我仍然如何强制它通过 0,0?我尝试formula = y~0+x在几个地方添加,但似乎都不起作用。

0 投票
1 回答
173 浏览

r - 权重优化以找出 R 中的最小二乘误差

我有实际值和四个不同的模型及其预测和拟合值。使用这些拟合值,我想找到最佳权重,以便 (summation(wifi)-actuals)^2 最小化。这里 wi 是我想要找到的最佳权重 & fi 是每个模型的拟合值。

我对 wi 的限制是;

  1. 权重必须大于 0,
  2. 权重必须小于 1,
  3. 权重之和必须为 1

我在这里看到了一个类似的例子 [ https://stats.stackexchange.com/questions/385372/weight-optimization-in-order-to-maximize-correlation-r]但我无法针对我的特定问题复制它。

让我们生成样本数据以更好地理解问题

现在,我需要以最佳方式找到 (w1,w2,w3,w4) 以便 (summation(wifi)-actuals)^2 最小化。我想保存权重,正如我提到的,我也有这四个模型的预测。如果我得到最佳权重,我对集成模型的预测值将是这些权重和预测值的线性函数。集成的第一个预测值如下所示,

ensemble_pred_1 = w1*model1_pred1+w2*model2_pred1+w3*model3_pred1+w4*model4_pred1

请帮助我找到最佳 wi,以便我可以根据需要生成集成模型。

0 投票
0 回答
71 浏览

python - 如何使用 Python 重新加权以维持不同样本之间的协变量分布?

我有两个独立的样本,它们的观察数量和两个变量的分布不同(假设没有更多变量)。我也想为第 2 组中的两个变量维持第 1 组中存在的分布。因此,我需要找到一种适当的方法来重新加权样本 2 中的观察值,以便每个样本中两个变量的分布非常相似甚至匹配。换句话说,我想根据集合 1 的分布在两个变量中产生两个平衡的集合。

如果我没有完全错,我的问题是关于 python 中的后分层和重新加权技术。

有没有人链接到已经发布的 python 代码,或者知道如何使用 python 匹配两个样本中多个变量的分布?

0 投票
1 回答
321 浏览

r - 如何将抽样权重纳入李克特量表调查问题的分析中?

我正在分析调查数据,其问题采用李克特量表的形式。我使用辅助人口普查数据来计算样本中不同年龄组的权重。我现在想使用这些权重来校正我的样本数据,然后显示每个年龄组区分的每个问题的分布。

任何帮助表示赞赏!

0 投票
1 回答
65 浏览

javascript - How to create a new array of set length from multiple arrays of varying length, the number of items taken from each smaller arrays based on importance

I want to pull 'questions' from different 'topic' arrays to build a quiz. The topics are being selected in order of importance to the user, each topic with a varying number of questions within and are used to populate a 20 question quiz's question bank based on their selection.

The most important rated topics will have more questions within this bank of 20 questions. The algorithm to complete this giving me a hard time.

I've tried looping over the parent topics array (containing all of the topic objects with name:str and question:[] properties). Then using an average amount(rounded up in case of odd number of topics) of questions needed to create 20 questions from all the topic's questions I worked out if there is any overhead.

i.e. 6 topics = 3.3 q's from each topic, 4 rounded up which is 24 q's to be pulled = overhead of 4.

Then I am trying to takeaway the overhead from the amount of questions to be pulled from the least important rated topics. The last item in the array being the least important.

What the topics array looks like.

I can't figure out how to get remove the overhead of 4 from the last 3 topic question arrays. So instead of pulling 4 (the average amount to be pulled to make 20) I would pull 3 2 1 from the three least important topics.

I want the output to be 4 4 4 3 2 1 totaling 20. However it just logs 2 six times.

0 投票
1 回答
159 浏览

r - 无法在 R 中拟合函数

我想做一个快速测试:

  1. 创建一个有很多点的函数。向数据中添加一些随机噪声。

  2. 对于每 n 个点,计算平均值和 sd。

  3. 使用误差线(类似于 sd*1.96/sqrt(n))显示新的(“阻塞”)数据

  4. 使用 nls 拟合和权重(即 (sd/sqrt(n))^(2))拟合“阻塞”数据

然后我在 .swts * attr(rhs, "gradient") 中得到一个拟合 错误错误:....

  1. 没有重量,这很好用。
0 投票
1 回答
68 浏览

r - 如何用数字 R 对列进行加权?

我有一列包含异常值,我想用一个代表年数(32)的特定数字对其进行加权。

我怎样才能做到这一点?

0 投票
2 回答
1713 浏览

deep-learning - 使用 keras 对多类图像分割中的样本进行加权

我正在使用基于 Unet 的模型对生物医学图像执行图像分割。每个图像都是 224x224,我有四个类,包括背景类。每个掩码的大小为 (224x224x4),因此我的生成器创建了一批大小为 (16x224x224x4) 的 numpy 数组。我将掩码的值重新转换为 1 或 0,因此对于每个类,相关通道中都存在 1。图像也按 1/255 缩放。我在训练期间使用骰子分数作为性能指标,并使用 1-dice 分数作为损失函数。我似乎在训练期间获得了高达 0.89 的分数,但我发现当我在测试集上进行预测时,我总是在预测背景类。我只在几百张图像上训练了 10 个 epoch(尽管我确实可以访问更多),这可能会影响模型,但我原以为我会 d 仍然得到其他类的预测,所以我假设主要问题是类不平衡。从在线查看 sample_weight 参数可能是答案,但我不确定我是如何实现实际重量部分的?大概我需要使用层在模型中的某个点将权重应用于像素数组,但我不确定如何。任何帮助将非常感激?

0 投票
1 回答
557 浏览

r - 使用 ANESRake 加权(耙)数据时缺少级别

我有一个调查数据集和一些报价:

人口报价如下:

在数据集中,我要权重类别 5 缺失。以下是数据集中变量的统计信息:

如果我执行倾斜,我会收到以下错误:

任何想法如何处理数据中的缺失级别?

这是引号的输入

和一小部分数据

@Yuriy Saraykin

你是对的,现在没有错误,但如果我使用你的代码,所有的权重都为 1。所以做的事情一定出错了。

我不明白这是为什么。如果我像您一样使用所有级别的列表,我会收到此错误(我之前尝试过)。

您的列表和我的列表有什么区别(即使您的代码没有提供所需的结果)?

你的清单:

我的列表:

我的列表生成如下:

0 投票
1 回答
46 浏览

r - 在 R 中应用总体变量?

我有一个加权变量,我想将其应用于我的数据集,以便获得加权总数。在 SPSS 中,这很简单。但是,在 R 中,我一直在将变量乘以权重变量以创建一个新变量,如下例所示:

https://stats.stackexchange.com/questions/210697/weighting-variable-based-on-another-variable

有没有更复杂的方法在 R 中应用权重?

谢谢。