问题标签 [statistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server-2005 - 如何获取列上存在的统计信息(如果有)?
如果表中的特定列有统计信息,我想检查 Transact SQL,如果有,则全部获取。
command-line - 从命令行获取一组数字的平均值的最快方法是什么?
使用您希望在 nix 系统上找到的任何工具(事实上,如果您愿意,msdos 也可以),假设您有一个计算一组数字的平均值的最简单/最快的方法是什么流或文件中的每行?
algorithm - tf-idf 和以前看不见的术语
TF-IDF(词频-逆文档频率)是信息检索的主要内容。不过,这不是一个合适的模型,当新术语被引入语料库时,它似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的。在传统的余弦匹配下,这些对总匹配没有影响。
sql - 如何在我的 MySQL varchar 列中创建最常见子字符串的有序列表?
我有一个包含几千行的 MySQL 数据库表。该表设置如下:
id | text
该id
列是一个自动递增的整数,并且该text
列是一个 200 个字符的 varchar。
假设我有以下行:
3 | I think I'll have duck tonight
4 | Maybe the chicken will be alright
5 | I have a pet duck now, awesome!
6 | I love duck
那么我想要生成的列表可能是这样的:
- “鸭子”出现 3 次
- “我”出现 3 次
- 出现 2 次“有”
- “鸡”出现 1 次
- 等
另外,我可能想要维护一个从列表中忽略的子字符串列表,例如'I'、'will'和'have。重要的是要注意,我不知道人们会发布什么。
我没有要监视的单词列表,我只想找到最常见的子字符串。然后,我将通过编辑查询手动从列表中过滤掉任何不感兴趣的错误子字符串。
谁能建议最好的方法来做到这一点?谢谢大家!
math - 是否有用于从计数数据中学习 Dirichlet 先验的 R 包
我正在寻找一个R
可用于从计数数据中训练 Dirichlet 的软件包。求一个在用的同事,R
自己不用,所以不太清楚怎么找包。搜索起来有点困难,因为“R”是一个非特定的搜索字符串。CRAN上似乎没有任何东西,但是还有其他地方可以看吗?
debugging - 错误分布
我有一个程序要从一种语言移植到另一种语言。我正在使用我自己开发的翻译程序来做这件事。这样做的相关结果是,我预计我的系统中存在许多我需要查找和修复的错误。每个错误都可能出现在许多地方,修复它会修复它出现的所有地方的错误。(我觉得有一个非常大的杠杆,我在短端推动,我非常努力,但是当事情移动时,它们会移动很多。)
我有能力运行执行日志差异,所以我通过测试套件在偏离原始程序执行之前可以运行它多远来衡量我的进度。(感谢 BeyondCompare 的 [whatever you want],它适用于 ~1M 行文件:D)
问题是:如果我将运行长度绘制为时间的函数,我应该期望看到什么形状?(更多时间 == 删除更多错误)
我的第一个想法是类似于泊松分布。然而,因为修复每个错误也会删除所有其他出现的错误,这不应该是完全正确的。
(顺便说一句,这可能对估计程序何时完成调试具有现实意义。)
编辑: 问题的更抽象的陈述:
给定从范围 [0,M](其中 N>>M)中选择的 N 个整数的有序列表,该列表沿列表中的位置均匀分布,但不一定具有数字的均匀分布。最后一个“新”号码的预期位置是什么?倒数第二个呢?ETC?
windows - 如何监控 Windows 上的 memcached 统计信息?
人们发现在 Windows 上监控 memcached 的最简单方法是什么?我尝试过的一种方法效果很好:
telnet 进入 memcached 端口 (11211) 并输入“stats”命令。你会得到一个这样的列表:
有没有更简单的方法?
math - 如何根据可变数量的比赛计算公平的整体游戏得分?
我有一个游戏,你可以在每场比赛中得分从 -40 到 +40。允许用户进行任意数量的比赛。我想计算一个总分,隐含地考虑到比赛的数量。
只计算平均值是不公平的。例如,如果彼得打了四场比赛,每场比赛得到 40 分,那么他的总分将与只打一场比赛得到 40 分的 Janne 相同。
把比赛分数加起来也不公平。Peter打了2场比赛(每场40分),总分80分。Janne打了8场比赛(每场比赛10分),总分80分。
有没有(简单)公平的方法来计算总分?我读过 Elo & Glicko 国际象棋评级系统,但两者都是基于玩家评级历史和对手评级。
python - 计算泊松概率百分比
在 Excel(或 OpenOffice Calc)中使用 POISSON 函数时,它需要两个参数:
- 一个整数
- 一个“平均”数字
并返回一个浮点数。
在 Python 中(我尝试了 RandomArray 和 NumPy),它返回一个随机泊松数数组。我真正想要的是这个事件将发生的百分比(它是一个常数,并且数组每次都有不同的数字 - 所以它是一个平均值吗?)。
例如:
返回[1 3 3 0 1 3]
(并且每次我运行它时,都会有所不同)。
我从 calc/excel 得到的数字是 3.19 ( POISSON(6,2.16,0)*100
)。
我使用 python 的泊松是错误的(没有双关语!)还是我错过了什么?