问题标签 [probability-theory]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 朴素贝叶斯是否应该将词汇表中的所有单词复数
我在文本分类中使用朴素贝叶斯。
假设我的词汇是 ["apple","boy","cup"] 并且类别标签是 "spam" 或 "ham"。每个文档将被覆盖到一个 3 维 0-1 向量。例如,“apple boy apple apple”将转换为 [1,1,0]
现在我已经从训练示例中计算了条件概率 p("apple"|"spam"), p("apple"|"ham"), p("boy"|"spam")...等。
要测试文档是垃圾邮件还是火腿,例如“apple boy”-> [1,1,0],我们需要计算 p(features | classLabel)
使用条件独立,用于测试向量 [1,1,0]
我知道这两个公式
(1) p(特征|"火腿") = p("苹果"|"火腿")p("男孩"|"火腿")
(2) p(特征|"火腿") = p("苹果"|"火腿")p("男孩"|"火腿")(1-p("杯子"|"火腿"))
哪个公式是正确的?
我相信(2)是正确的,因为我们有 3 个特征(实际上是词汇表中的 3 个单词)。但是我看到其他人使用(1)编写的代码。虽然术语 1-p("cup"|"ham") 接近 1 所以它不会有太大的区别,但我想要确切的答案。
java - 在 Java 中生成概率分布
我想了解如何生成概率分布。我正在研究随机最短路径问题,其中边缘具有相关的概率分布以及每个概率的相关成本。我能够生成这样的(正态)分布:
使得所有概率的总和为 1,遵循此问题中提供的答案。现在,我需要生成其他分布,如双正态、对数正态和伽玛。我非常感谢对这些发行版和(伪)代码(最好是在 Java 中)生成它们的任何澄清。
algorithm - 油藏采样理解概率
我无法理解储层采样所涉及的概率。下面是我在几乎所有地方都看到过的示例代码:
我的理解正确吗(?):假设我们有 k=3 并且 input = [100, 200, 300, 400, 500] 并且 i 目前处于 500 索引。500 替换 300 在水库中的概率(大小为 3)= 在水库中选择 300 的概率 * 选择 500 的概率只有当随机函数返回的索引小于或等于 3 时才有可能5 个选择 = 1/3 * 3/5 = 1/5
math - 从不断变化的非标准分布中估计平均值
在我的用例中,我需要计算一组遵循非标准分布的值的平均值。最初,我收到 n 个数据样本,可用于创建非标准概率分布。然后我收到 m 个数据样本,我需要根据非标准分布计算这些样本的平均值。样本都是复数。
为了创建这种非标准分布,我将 iq 平面(数据是复数)分成正方形块,并用它来创建非标准分布。
是否有一种机制来确定用于创建非标准分布的这些块的适当大小?因为,这些块的大小与计算的概率分布的准确性之间似乎存在相关性。
此外,这种方法的正确术语是什么,因为目前它主要基于直觉而不是正确的概率论。我想了解更多有关创建此类非标准发行版的信息。
python-3.x - 来自 gamma 分布的均值分布与 Python 中的理论值不匹配
我在 Coursera 上为某门课程做作业。重点是对某些分布使用中心极限定理(我选择 Gamma 分布)并在图上绘制 E = Ebase 和 D = Dbase/n 的正态分布概率密度函数的理论值,其中 E 和 D 是数学期望和分散手段的分布。
均值取自大小为 n 的样本,其中每个单元由 Gamma 分布生成,并带有手动插入的参数(我使用k = 2
, theta = 0.5
),因此Ebase = k*theta
和Dbase = k*theta^2
。在同一张图上应该有一个直方图规范为 1。
理论上,我们取的 n 越大,两个图形应该越匹配。但我在 ipython 笔记本中有这样的:
我在 Wiki 上仔细检查了它,似乎我为所有内容插入了正确的参数化,但我真的找不到错误。我错过了什么?
math - 在随机图中:一个节点与列表 x 定义的特殊节点上的任何节点有链接的概率是多少?
对于我在观察到的网络上进行的计算,我遇到了这个问题。
让我们想象一个随机图G(N,p),其中N是节点数,p是在任何节点n i和n j之间形成边的概率。该图是无向的。
然后让我们将一定数量的x节点(比如 5)标记为特殊的。那么一个节点与这些特殊节点中的任何一个具有边的概率( p s )是多少。
我对如何自己解决这个问题几乎没有什么想法。我想答案将分两步:
首先,因为我想我将不得不承认所有可能的N个节点图来为我的概率计算制作事件。我认为如果S=N(N-1)/2可能有S(S-1)/2可能的图表,但这些可能性并不相同,所以我很茫然。其次,我理解到特殊节点的链接概率必须接近 1,因为特殊节点 ( x ) 的数量接近N,并且p s =p如果x=1。
感谢任何提示。谢谢
excel - 掷硬币以获得特定模式的蒙特卡罗模拟
受这篇文章的启发:掷硬币模式统计,我进行了蒙特卡罗模拟,以确定使用 Excel VBA 获得特定模式的预期掷硬币次数。下面的代码是蒙特卡罗模拟,用于掷硬币以获得模式 HTH,其中 H 是正面 (1),T 是尾部 (0)。
程序的输出如下图所示:
这与文章中显示的结果一致。投掷公平硬币的其他模式也是匹配的。尽管有结果,但我仍然不确定我编写的程序是否正确。当硬币不公平时,我会产生疑问,即p1
,p2
和p3
不等于 0.5,因为我没有任何信息来检查其准确性。我还想知道如何在 VBA Excel 或 R 中编写一个高效的程序来执行上面的模拟,以实现更长的模式,如 THTHTHTHT、THTTHHTHTTH 等,它的循环超过 1,000,000(可能是 100,000,000 或 1,000,000,000)但仍然相当快?任何想法?
math - 来自 2 个随机数任务的 3 个随机数
假设,你有一些均匀分布的rnd(x)函数,它会返回 0 或 1。你如何使用这个函数来创建任何rnd(x,n)函数,它会返回从 0 到 n 的均匀分布数?
我的意思是每个人都在使用它,但对我来说它并不那么聪明。例如,我可以创建右边界为 2^n-1([0-1]、[0-3]、[0-7] 等)的分布,但找不到如何为范围执行此操作的方法像 [0-2] 或 [0-5] 不使用非常大的数字以获得合理的精度。
algorithm - 我不明白如何实现的概率(指数?)推理公式
我正在尝试从一篇学术论文中实现一个真相发现算法。它是一种流式算法,可以实时推断真相和源质量。如果有人有兴趣阅读本文,请在此处了解更多详细信息:http ://dl.acm.org/citation.cfm?id=2661892
我的问题是我不理解算法中的公式,或者是其中一个公式的精确符号,并且我在用 R 或 Python 实现它时遇到了困难。它似乎是某种指数公式,但我在数学书中没有找到任何关于它的信息。也不确定半无穷大符号。我认为这意味着成比例,但这意味着价值分配,还是什么?任何指针将不胜感激。
java - 如何根据(使用)选定的随机数找到选择限制?
我有一组(选择)随机生成的数字。例如:
13 14 9 10 14 10 10 11 16 9 9 12 10 10 15 16 12 10 13 12 11 13 14 17 12 11 9 15 13 9 16 14 12 10 10 11 11 14 11 15 12 13 12 2 8 1416 14 9 10 15 8 12 15 13 14 18 12 7 11 11 15 14 17 9 9 10 15 11 13 12 18 14 10 14 10 15 15 13 7 15 12 11 12 14 10 9 12 12 5 14 9 1 16 1 5 14 9 1
我的意思是,这些数字似乎不是在 -100 到 10000 的范围内生成的。正确的答案是限制是从 5 到 20。如何定义选择的范围(最低限制和最高限制)?我觉得我必须使用Expected value
或Variance
以某种方式使用,但不知道如何使用。
再举一个例子:
35 16 19 21 20 34 24 24 24 24 24 24 24 16 33 35 23 19 20 19 30 29 25 21 34 14 20 34 16 24 27 12 27 12 21 20 21 20 25 17 21 32 21 32 21 17 19 20 30 21 22 21 9 14 24 24 24 24 18 23 24 26 20 13 22 32 21 20 29 21 25 24 18 25 27 28 28 26 13 13 17 28 26 26 30 21 18 21 18 23 29 28 28 28 28 28 26 17 28 25 19 22 16 25 33 26 25 33 22 20 24 24 24 27 32 22 22 21 27
答:所有这些数字都是从 5 - 40 范围内生成的