问题标签 [statistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2723 浏览

php - 加权平均数

我有一个现有的网络应用程序,允许用户根据难度对项目进行“评分”。(0 到 15)。目前,我只是取每个用户意见的平均值,并直接从 MySQL 中呈现平均值。但是,我(和我的用户)越来越清楚,对数字进行加权会更合适。

奇怪的是,几个小时的谷歌搜索并没有出现太多。我确实找到了两篇文章,它们显示了基于“贝叶斯过滤器”(我部分理解)的站点范围的评级系统。 是一个例子:

公式为:

WR=(V/(V+M)) * R + (M/(V+M)) * C

在哪里:

我喜欢这里的想法,即根据每个项目的总票数来增加权重……但是,因为我网站上的难度级别可能因项目而异,取“C”(算术平均评分)网站)无效。

所以,重述我的问题:

使用 MySQL、PHP 或两者兼而有之,我尝试从算术平均值中获取:

...加权平均:

0 投票
6 回答
4013 浏览

math - 在不存储所有数据点的情况下计算平均置信区间

对于大n(请参阅下文了解如何确定足够大),通过中心极限定理将样本均值的分布视为正态(高斯)是安全的,但我想要一个为任何n. 这样做的方法是使用具有n-1自由度的学生 T 分布。

所以问题是,给定您一次收集或遇到一个数据点的流,您如何计算c(例如,c=.95)数据点均值的置信区间(不存储所有先前遇到的数据)?

另一种问这个问题的方法是:如何在不存储整个流的情况下跟踪数据流的第一时刻和第二时刻?

奖励问题:您可以在不存储整个流的情况下跟踪更高的时刻吗?

0 投票
3 回答
651 浏览

statistics - 交互式统计分析工具

我正在寻找用于统计分析的基本软件。最重要的是简单直观的使用,“开箱即用”。至少基本操作应该是交互式的。免费将是一个奖励:)

目的是分析各种进程的数据转储和日志。

  • 导入逗号/制表符分隔的文件
  • 根据条件对行进行排序和过滤
  • 基本聚合:计数、平均值、偏差、回归、趋势
  • 可视化 - 绘制数据、bin 分布等。

Excel 在过滤和重新组合数据时失败(至少对我而言),我想像“Excel with SQL”这样的东西会很好。我以前一直在使用 MS Access + Excel 并复制数据,但这很痛苦。

你有什么建议吗?

澄清我不是在寻找用于 IIS/Web 服务器日志的特定工具,而是在寻找具有制表符分隔值的各种数据结束事件日志(主要来自自定义应用程序)。

0 投票
7 回答
4707 浏览

algorithm - 在 F# 中计算移动平均线

我仍在研究 F# 的东西 - 试图弄清楚如何在 F# 中“思考”,而不仅仅是从我知道的其他语言翻译。

我最近一直在考虑在之前和之后之间没有 1:1 映射的情况。List.map 崩溃的情况。

其中一个示例是移动平均线,通常在对 n 个项目进行平均时,对于长度为 len 的列表,您将得到 len-n+1 个结果。

对于那里的大师来说,这是一个好方法吗(使用从Jomo Fisher捏出来的队列)?

(也许更好的方法是通过从 Fifo 继承来实现 MovingAverageQueue?)

0 投票
6 回答
969 浏览

statistics - 模拟/统计/预测的研究生学位?

我想知道是否有人对此有任何见解。我正在考虑去研究生院获得一些计算机科学相关的学位。我一直对使用统计软件包或模拟解决问题的人很感兴趣。我要学习什么才能对这些事情有广泛的了解?他们属于机器学习吗?谢谢

0 投票
4 回答
550 浏览

python - 计算两个D30复投的准确结果

好吧,这困扰了我好几年,现在。如果你在学校学过统计学和高等数学,现在就转身离开。太晚了。

好的。深吸一口气。这是规则。拿两个30 面骰子(是的,它们确实存在)并同时掷骰子。

  • 将两个数字相加
  • 如果两个骰子都显示 <= 5 或 >= 26,再次掷骰子并将结果添加到您所拥有的
  • 如果一个是 <= 5 而另一个 >= 26,则再次抛出并从你拥有的结果中减去结果
  • 重复直到 > 5 和 < 26!

如果您编写一些代码(见下文),将这些骰子掷几百万次,然后计算您收到每个数字的频率作为最终结果,您会得到一条在 1 的左侧非常平坦的曲线,在 1 和 1 之间大约 45° 60和60以上持平。滚动30.5或更好的机会大于50%,滚动优于18的机会是80%,滚动优于0的机会是97%。

现在的问题是:是否可以编写一个程序来计算精确值 f(x),即滚动某个值的概率?

背景:对于我们的角色扮演游戏“星辰丛林”,我们寻找一种方法来控制随机事件。上面的规则保证了你尝试的东西会得到更稳定的结果:)

对于周围的极客,Python 中的代码:

0 投票
2 回答
1215 浏览

sql-server - sp_updatestats 是否会导致在 SQL Server 2005 中无法访问表?

更新统计信息会导致表无法访问吗?换句话说,您可以在不停机的情况下运行此过程吗?

专门用于 SQL Server 2005

0 投票
7 回答
24676 浏览

algorithm - 无需替换的采样算法?

我正在尝试测试偶然发生特定数据聚类的可能性。一种稳健的方法是蒙特卡罗模拟,其中数据和组之间的关联被随机重新分配大量次(例如 10,000 次),并且使用聚类度量来比较实际数据与模拟以确定 ap价值。

我已经完成了大部分工作,将分组映射到数据元素的指针,所以我计划随机重新分配指向数据的指针。问题:什么是无需替换的快速采样方法,以便在复制数据集中随机重新分配每个指针?

例如(这些数据只是一个简化的例子):

数据(n=12 个值) - A 组:0.1、0.2、0.4 / B 组:0.5、0.6、0.8 / C 组:0.4、0.5 / D 组:0.2、0.2、0.3、0.5

对于每个复制数据集,我将拥有相同的集群大小(A=3、B=3、C=2、D=4)和数据值,但会将这些值重新分配给集群。

为此,我可以生成 1-12 范围内的随机数,分配 A 组的第一个元素,然后生成 1-11 范围内的随机数并分配 A 组的第二个元素,依此类推。指针重新分配很快,并且我将预先分配所有数据结构,但是没有替换的采样似乎是一个以前可能已经解决过很多次的问题。

逻辑或伪代码优先。

0 投票
1 回答
382 浏览

math - 服务器日志的统计分析——外推的正确性

一天,我们遇到了大约 10 分钟的 ISP 故障,不幸的是,这发生在从多个地点进行的托管考试期间。

不幸的是,这导致候选人当前页面的回发数据丢失。

我可以从服务器日志中重建事件流。但是,在 317 名候选人中,有 175 名使用本地代理,这意味着他们似乎都来自同一个 IP。我分析了其余 142 个(45%)的数据,并得出了一些很好的数字来说明它们发生了什么。

问题:将我所有的数字乘以 317/142 以获得整个集合的可能结果有多正确?我的(非)确定性区域是什么?

请不要猜测。我需要一个在统计课上没有睡着的人来回答。

编辑:按数字,我指的是受影响个人的数量。例如,5/142 在会话期间显示了浏览器崩溃的证据。11/317 浏览器崩溃的推断有多正确?

0 投票
2 回答
5952 浏览

java - Java 统计包?(马尔可夫链和高级分布)

我在寻找一个提供马尔可夫链和其他高级分布(如统计)的像样的 Java 库时遇到了麻烦。

我在 source forge 上找到了http://sourceforge.net/projects/hydra-mcmc/ ,它看起来有点用,但有人知道/使用更新的包吗?(还没有真正了解这个包,但人们会认为一个维护得更好的包是可取的)。

任何人都可以提出建议?