问题标签 [probability-theory]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - scipy.stats.kde 和 scipy.stats.kstest
如何以保形方式使用scipy.stats.kde.gaussian_kde
和?scipy.stats.kstest
例如,代码:
给出以下答案:
(0.5396735893479544, 0.0)
这是不正确的,因为样本显然属于在该样本上构建的分布。
python - python - 如何在python中用高斯分布对具有2个变量的函数进行加权?
最近几天我一直在处理这个问题,但我还看不出问题出在哪里。
我正在尝试在具有特定平均值 ( ) 和偏差 ( )f(q,r)
的高斯分布中使用 2 个变量对函数进行加权。这是必需的,因为理论函数在实验分析时其变量具有一定的分散性。因此,我们使用概率密度函数来衡量我们在变量中的函数。g(r)
R0
sigma
f(q)
r
r
我包含了有效的代码,但没有给出预期的结果(加权曲线应该随着多分散性的增长(更高sigma
)更平滑,如下所示。如您所见,我整合了来自的 2 个函数的f(r,q)*g(r)
卷积r = 0
到r = +inf
.
绘制结果以将称重结果与简单函数进行比较:
非常感谢。我已经遇到这个问题好几天了,我还没有发现错误。
也许有人知道如何以更简单的方式使用 PDF 来衡量函数。
probability-theory - 需要数学证明(概率)
从 Pr[E] = Pr[E|A].Pr[A] + Pr[E|A'].Pr[A']
我们如何证明 Pr[E] <= Pr[E|A] + Pr[A']
r - R - 找出给定宇宙中每个子集的机会
让我从一个简单的例子开始。
假设有 10 人的宇宙,其中 1 人拥有产品 A,2 人拥有产品 B
U=10, A=1, B=2
现在我想找到以下机会:
1)一个人没有产品==>(1 - 1/10)*(1 - 2/10)= 0.72
2)一个人至少拥有1个产品==> 1 - ((1 - 1/10) * (1 - 2/10)) = 0.28
3) 一个人拥有 2 件产品 ==> (1/10) * (2/10) = 0.02
但是,如果有n 个产品,我想要一个通用算法来对所有这些选项进行排序。
输入如下
U <- 10
products <- c('A','B')
owned_by <- c(1, 2)
df <- data.frame(products, owned_by)
matlab - 高斯混合模型概率matlab
我有一个尺寸为 50x100000 的数据。(100000 个特征,每个特征的维度为 50)。
我想使用这些数据拟合一个高斯混合模型。我使用了以下代码。
我需要的是当我给出一个新数据时,YI 应该能够得到似然概率 $p(Y|\theta)$,其中 $\theta$ 是高斯混合模型参数。
我使用以下代码来获取概率值。
但是我得到的值非常低,都大约为 0。为什么会这样?我怎样才能得到适当的概率值?
matlab - 基于高斯混合模型的异常值检测
我有一组数据。我想从该数据构建一个类分布。根据学习到的分布,我想获得每个数据实例的概率值。基于这个概率值(阈值),我想构建一个分类器来分类特定数据实例是否来自该分布。
在这种情况下,假设我有一个 50x100000 的数据,其中 50 是每个数据实例的维度,实例数为 100000。我正在学习基于此分布的高斯混合模型。
当我尝试获取实例的概率值时,我得到的值非常低。那么在这种情况下,我该如何构建分类器?
matlab - 如何矢量化熵计算?
我试图对每一列的熵,矩阵看起来像这样:
每列加一,但是,矩阵中有一些零,所以如果我只是 log2(arr(i,:)),结果中会有一个 -Inf,所以整个事情都行不通
实际上我有一个巨大的矩阵,所以我希望程序运行得快,有解决办法吗?
这是我的解决方案,它的工作速度和 p .* log2(p) 一样快吗?
php - 统计脑筋急转弯:如何创建随机唯一的 6 位 PIN 并分发以最小化碰撞概率
我想创建一个脚本,用户可以在注册电子邮件后使用它来生成 pin。PIN 码必须是 6 位数长且唯一;没有两个用户可以拥有相同的 pin。
我有以下代码,但是除了陷入无限循环之外,我无法继续前进。随着更多引脚的使用,循环 while() 函数的概率会增加。有没有人对此有更优雅的解决方案的想法?
用户使用他们的 pin 从网站访问免费服务。如果用户猜到另一个密码,服务不会失败,但会破坏用户体验。
如果可能的话,我想以这样一种方式分配 PIN,以便在统计上猜到 pin 的概率可以忽略不计。
multithreading - 同一个工人从 Y 总数中获得 X 任务的机会(在 Z 工人池中)
这基本上是一个概率论问题,但我太生疏了,我似乎无法思考从哪里开始。
我有一群 Z 工人。每个工人都有一个限制,X,在它被回收之前它必须执行多少任务。每个新任务都由一个工人随机抓取(1/Z
一个工人抓住它的机会)。
在给定 Y 个任务之后,一个工人达到 X 阈值的几率是多少?
我希望计算它,因为我需要定期执行“清理”,而不是随机选择一些数字,我希望它与工人的数量和他们的任务限制有关(我可能会在稍后调整),所以一旦有 25-30-35% 的机会完成一名工人,我就会进行清理。
algorithm - 如何生成相关文本?
我想要做的是,获得一个文本训练集(自然语言),并使用自动创建的文本来增加这个集,试图模仿文本内容。我正在使用词袋假设,顺序无关紧要,语法无关紧要,我只想创建包含与基本主题相关的单词的文本。
现在我正在使用Latent Dirichlet Allocation将我的文档分类为主题分布,平均我的集合的主题分布,并从这些主题分布中生成文档。
我想知道两件事:
1-有没有更好的方法来做到这一点?
2-我可以用不属于我的集合域的文本训练 LDA,而不会污染我的主题:例如。我想增加的集合有关于政治的文本。我可以用任何类型的文本(汽车、时尚、音乐)训练我的模型,并对我的政治文本库进行分类,得到它的主题分布,并从这个分布中生成类似的文本。
我正在使用 python 2.7 和 gensim。