问题标签 [statistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
15904 浏览

sql-server - SQL Server 2005 中的“创建统计信息”有什么作用?

数据库优化顾问建议我在我的数据库中创建一堆统计信息。我有点像 SQL n00b,所以这是我第一次遇到这样的生物。MSDN 中的条目有点迟钝 - 有人可以解释一下这到底是做什么的,为什么这是一个好主意?

0 投票
8 回答
21988 浏览

.net - 推荐一个开源 .NET 统计库

我需要计算一堆数值数据的平均值、标准差、中位数等。我可以使用一个好的开源 .NET 库吗?我找到了 NMath,但它不是免费的,可能对我的需求来说有点过分了。

0 投票
11 回答
1635 浏览

algorithm - 对数字集的相似性进行评分的算法

将多组数字与目标集进行比较以确定哪些数字最“相似”的算法是什么?

该算法的一种用途是将今天的每小时天气预报与历史天气记录进行比较,以找到具有相似天气的一天。

两组的相似度有点主观,所以算法真的只需要区分好匹配和坏匹配。我们有很多历史数据,所以我想通过自动丢弃不接近的集合并尝试将“最佳”匹配项放在顶部来尝试缩小用户需要查看的天数名单。

编辑:理想情况下,算法的结果与使用不同数据集的结果相当。例如,使用Niles建议的均方误差会产生很好的结果,但比较温度时生成的数字无法与其他数据(如风速或降水)生成的数字进行比较,因为数据的规模不同。一些非天气数据非常大,因此均方误差算法生成的数字为数十万,而使用温度生成的数字为数十或数百。

0 投票
7 回答
6636 浏览

c++ - 查找数字数组中最大差异的算法

我有几百万个数字的数组。

我需要遍历数组并找到范围(数组中的最大值减去最小值)。但是,有一个问题。我只想找到最小值和最大值在 1,000 个样本内的范围。

所以我需要找到最大值:range(data + 0, data + 1000), range(data + 1, data + 1001), range(data + 2, data + 1002), ...., range(data + 3599000,数据 + 3600000)。

我希望这是有道理的。基本上我可以像上面那样做,但是如果存在的话,我正在寻找一种更有效的算法。我觉得上面的算法是O(n),但是我觉得可以优化。我正在玩的一个想法是跟踪最近的最大值和最小值以及它们有多远,然后只在必要时回溯。

我将在 C++ 中对此进行编码,但是在伪代码中使用一个不错的算法就可以了。另外,如果我要查找的这个号码有名字,我很想知道它是什么。

谢谢。

0 投票
5 回答
396 浏览

statistics - 您如何衡量界面更改是提高还是降低了可用性?

对于电子商务网站,您如何衡量对网站的更改是否确实提高了可用性?你应该收集什么样的测量结果,你将如何建立一个框架来使这个测试成为开发的一部分?

0 投票
2 回答
6424 浏览

algorithm - 地理标记或地理标签文本内容的方法

有哪些好的算法可以用城市/地区或原产地自动标记文本?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述。是否有任何包装/文件声称可以肯定地做到这一点?

我已经研究了一些基于 tfidf 的方法、专有名词交集,但到目前为止,还没有取得惊人的成功,我会很感激想法!

给定一些主题列表,更一般的问题是关于将文本分配给主题。

简单/天真的方法更喜欢完全使用贝叶斯方法,但我很开放。

0 投票
2 回答
3579 浏览

oracle - 通过分区交换 (Oracle 10g) 加载表

我对优化这种类型的负载有几个问题。

构建一个新的数据表以加载到分区表中,然后在这个新表上构建索引。

  1. 您应该使用 COMPUTE STATISTICS 选项构建索引还是使用 DBMS_Stats 的 Cascade 选项?

  2. 您应该在交换之前的表上还是在交换之后的分区上收集统计信息?

  3. 如果你在交换之后做,并且你在参数列表中指定分区名称,粒度参数有什么相互作用?例如,如果我指定一个分区名称,然后将粒度设置为“全局和分区”,那是否会全局?它只做一个分区吗?

0 投票
4 回答
393 浏览

linux - 什么是 Linux 等效的 GetProcessIoCounters?

这是 Windows文档的链接。

基本上我想获得类似的数据,但在 Linux 上。如果不是所有的都是可能的,那么至少有一些部分是可能的。

0 投票
3 回答
85167 浏览

oracle - 发现什么进程/查询正在使用 oracle 临时表空间

Oracle FAQ 对临时表空间的定义如下:

临时表空间用于管理数据库排序操作和存储全局临时表的空间。例如,如果您连接两个大表,而 Oracle 无法在内存中进行排序,则会在临时表空间中分配空间来进行排序操作。

这很好,但我需要更多关于究竟是什么在使用该空间的详细信息。由于应用程序设计的怪癖,大多数查询都会进行某种排序,因此我需要将其缩小到客户端可执行文件、目标表或 SQL 语句。

本质上,我正在寻找线索来更准确地告诉我这个(相当大的应用程序)可能有什么问题。任何类型的线索都可能有用,只要它比“排序”更精确。

0 投票
1 回答
4985 浏览

performance - Discover what process/query is using the oracle SGA

I have a query to monitor SGA (non-)utilisation:

That's great, but I need more detail about what exactly is using the space. Essentially, I'm looking for clues to tell me more precisely what might be wrong with this (rather large application).

select * from v$sgastat does not give me anything that I recognise as a developer - at least not without some pointers.