问题标签 [statistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2884 浏览

sql-server - SQL Server STATISTICS

So for this one project, we have a bunch of queries that are executed on a regular basis (every minute or so. I used the "Analyze Query in Database Engine " to check on them.

They are pretty simple: select * from tablex where processed='0'

There is an index on processed, and each query should return <1000 rows on a table with 1MM records.

The Analyzer recommended creating some STATISTICS on this.... So my question is: What are those statistics ? do they really help performance ? how costly are they for a table like above ?

Please bear in mind that by no means I would call myself a SQL Server experienced user ... And this is the first time using this Analyzer.

0 投票
11 回答
1632 浏览

math - 程序员的统计工具

我正在尝试评估购买统计工具。这将部分由非编程用户(进行临床研究)和部分程序员使用,所以我试图在可用性和自动化之间找到一个很好的折衷方案。当然,成本是一个问题,但如果我能打造一个坚固的外壳,我们可能会购买一个商业包装,所以我们并不完全限于免费选项。

到目前为止,我们的选择是:

  • Statistica(一些非程序员已经知道)
  • Matlab 统计工具箱(程序员已经使用 matlab)
  • R 语言(需要非程序员的 UI)
  • 将某些东西破解到 Excel 中(不好玩,但这就是非程序员现在所做的)
  • ?...

还有什么?行业标准是什么?我应该寻找什么样的显着特征?你会推荐什么,为什么?

理想情况下,我们想要一个可以在 Linux 和 Windows 机器上运行的工具。

(我从事医学成像工作,所以我们同时做生物统计学和软件工程统计学)

0 投票
6 回答
9603 浏览

algorithm - 潜在狄利克雷分配、陷阱、技巧和程序

我正在尝试使用潜在狄利克雷分配来进行主题消歧和分配,我正在寻求建议。

  1. 哪个程序是“最好的”,其中最好的是最容易使用、最好的先验估计、快速的组合
  2. 我如何结合我对话题性的直觉。假设我认为我知道语料库中的某些项目确实属于同一类别,就像同一作者的所有文章一样。我可以将其添加到分析中吗?
  3. 在开始之前我应该​​知道任何意想不到的陷阱或提示吗?

我更喜欢任何程序都有 R 或 Python 前端,但我希望(并接受)我将处理 C。

0 投票
6 回答
44344 浏览

statistics - How do I programmatically calculate Poker Odds?

I'm trying to write a simple game/utility to calculate poker odds. I know there's plenty of resources that talk about the formulas to do so, but I guess I'm having trouble translating that to code. Particularly, I'm interested in Texas Hold-em ...

I understand that there are several different approaches, one being that you can calculate the odds that you will draw some hand based on the cards you can see. The other approach is calculating the odds that you will win a certain hand. The second approach seems much more complex as you'd have to enter more data (how many players, etc.)

I'm not asking that you write it for me, but some nudges in the right direction would help :-)

0 投票
3 回答
387 浏览

statistics - 为什么 Wemf 和 Google Analytics 告诉我的事情如此不同?

该网站与 Wemf 和 Google Analytics 一起使用,但它们给了我非常不同的结果;WEMF 的页面浏览量比 Google Analytics(分析)多 10 - 30%... 为什么会这样?

谷歌分析只能在启用 JavaScript 的情况下工作,是的 - 但我认为这不是造成这种差异的原因。应该算的站点是瑞士著名的报纸。

有什么建议么?

0 投票
5 回答
7754 浏览

web - 最佳实践:如何跟踪出站链接?

您如何跟踪网站的出站链接,因为请求记录在目标服务器上,而不是您的?

0 投票
3 回答
792 浏览

optimization - 稀疏最小二乘回归工具

我想用几十万个例子做稀疏的高维(几千个特征)最小二乘回归。我很高兴使用非花哨的优化——随机梯度下降很好。

有谁知道任何已经为此实现的软件,所以我不必自己写信?

亲切的问候。

0 投票
5 回答
2181 浏览

oracle - 甲骨文 V$OSSTAT

Oracle 视图 V$OSSTAT 包含一些操作统计信息,包括:

  • IDLE_TICKS 处理器空闲的百分之一秒数,所有处理器的总和
  • BUSY_TICKS 处理器忙于执行用户或内核代码的百分之一秒数,所有处理器的总和

我读过的文档并不清楚这些是否被重置。有人知道吗?

我的另一个问题是我想计算出系统正在经历的平均 CPU 负载。为此,我希望我必须去:

它是否正确?

11 月 8 日更新

Oracle 10g r2 在该表中包含一个名为 LOAD 的统计信息。它提供读取值时机器的当前负载。这比使用其他信息要好得多,因为 *_ticks 数据是“自实例开始”而不是当前时间点。

0 投票
2 回答
569 浏览

unix - 相当于内存检查的时间

我们可以time在 unix 环境中使用来查看某件事花了多长时间...

是否有记录进程的内存使用情况的等价物?

特别是我对峰值分配感兴趣。

0 投票
4 回答
343 浏览

algorithm - 根据结果​​销售订购“标语”活动的算法

我希望能够将新的“标签行”引入数据库中,这些“标签行”会“随机”显示给用户。(这些标语行显示为动画文本的介绍。)

根据这些标语产生的销售数量,我希望好的标语能够逐渐上升到顶部,但仍然不那么频繁地显示其他标语。

我可以很容易地想出一个基本算法,但我想要一些更“统计准确”的东西。

我真的不知道从哪里开始。自从我做了比基本统计更多的事情以来已经有一段时间了。我的模型需要对公差敏感,但显然它不需要值得 PHD。

编辑:我目前正在跟踪“转化率”——即每个订单的点击量。最好将此值计算为要输入算法的累积“所有时间”转换率。