问题标签 [significance]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
8348 浏览

python - 十进制模块中的有效数字

所以我决定尝试通过编写一些python脚本来解决我的物理作业来为我解决问题。我遇到的一个问题是重要的数字似乎并不总是正确地出现。例如,这可以正确处理有效数字:

但这不会:

所以两个问题:

  1. 我是对的,这不是预期的有效数字数量,还是我需要复习有效数字数学?
  2. 有什么方法可以做到这一点而不必手动设置小数精度?当然,我确信我可以使用 numpy 来做到这一点,但我只是想知道是否有一种方法可以使用 decimal 模块来做到这一点。
0 投票
8 回答
3931 浏览

c# - C#查找相关文档片段以显示搜索结果

在为我正在构建的站点开发搜索时,我决定采用便宜快捷的方式并使用 Microsoft Sql Server 的全文搜索引擎,而不是像 Lucene.Net 这样更强大的引擎。

不过,我希望拥有的功能之一是谷歌式的相关文档片段。我很快发现确定“相关”片段比我意识到的要困难。

我想根据找到的文本中的搜索词密度选择片段。所以,本质上,我需要在文本中找到搜索词最密集的段落。一个段落是任意数量的字符(比如 200 - 但它真的没关系)。

我的第一个想法是在循环中使用 .IndexOf() 并构建一个术语距离数组(从先前找到的术语中减去找到的术语的索引),然后......什么?将任意两个、任意三个、任意四个、任意五个顺序数组元素相加,并使用总和最小的元素(因此,搜索词之间的距离最小)。

这似乎很乱。

有没有比我想出的更成熟、更好或更明显的方法来做到这一点?

0 投票
6 回答
2617 浏览

precision - 使用泰勒级数避免精度损失

我正在尝试使用泰勒级数来开发一个数值合理的算法来解决一个函数。我已经有一段时间了,但还没有运气。我不确定我做错了什么。

功能是

另外:为什么这个函数甚至会出现精度损失?当 x 接近于零时,sin(x)/ln(1+x) 甚至不接近与 x 相同的数字。我看不出意义在哪里消失了。

为了解决这个问题,我相信我需要对 sin(x) 和 ln(1+x) 使用泰勒展开,它们是

分别。我曾尝试使用相似的分母来组合 x 和 sin(x)/ln(1+x) 分量,甚至将这三个分量组合起来,但最终似乎没有任何效果。任何帮助表示赞赏。

0 投票
1 回答
30614 浏览

excel - 使用 Excel 计算统计显着性

我在excel中有2列和多行数据。每列代表一个算法,行中的值是这些算法具有不同参数的结果。我想用excel对这两种算法进行统计显着性检验。任何人都可以建议一个功能吗?

因此,最好声明“算法 A 的性能比算法 B 好 8%,概率为 0.9(或 95% 置信区间)”

维基百科文章准确地解释了我需要什么: http ://en.wikipedia.org/wiki/Statistical_significance

这似乎是一项非常容易的任务,但我没有找到科学的测量功能。

任何关于 excel 或函数片段的内置函数的建议都值得赞赏。

谢谢..

编辑:

在 tharkun 的评论之后,我意识到我应该澄清一些观点:结果只是 1-100 之间的实数(它们是百分比值)。由于每一行代表一个不同的参数,因此一行中的值代表该参数的算法结果。结果不相互依赖。当我取算法 A 和算法 B 的所有值的平均值时,我发现算法 A 产生的所有结果的平均值比算法 B 高 10%。但我不知道这是否具有统计学意义。换句话说,也许对于一个参数,算法 A 的得分比算法 B 高 100%,而对于其余的,算法 B 的得分更高,但仅仅因为这一结果,平均差异为 10%。我想只用excel来做这个计算。

0 投票
2 回答
206 浏览

terminology - 将文档中的文本频率与语料库中的频率进行比较

我想分析文档中的字母、二元组、单词等项目,并将它们在我的文档中的频率与它们在大型文档语料库中的频率进行比较。

这个想法是,诸如“if”、“and”、“the”之类的词在所有文档中都很常见,但在本文档中,某些词会比语料库中的典型词更常见。

这应该是很标准的。这叫什么?这样做很明显,我总是在我的文档中遇到新词的问题,但在语料库评级中却没有无限重要。这是如何处理的?

0 投票
1 回答
2464 浏览

python - 随着时间的推移在 Python 中的方差分析,我在做什么?

我真的很喜欢统计学,但已经有 6 年没上过课了。我无法弄清楚我需要什么样的测试,以及用于此类问题的最佳 numpy/scipy/R 函数。

我有一张访问者表格及其相应的属性(例如“Browser = Mozilla, Referrer = Google”),以及每个访问者的变量值(例如 $5),随着时间的推移分组为数据点。

我的目标是:

A)找到最重要的财产家庭,并为家庭的“重要程度”打分

我想得出的结论示例*:

B) 找出家族中最重要的属性,并给出显着性分数。

我想得出的结论样本:

我的问题是:

1) 是否有 numpy/scipy/R 函数让我的生活变得轻松?

2) 任何人都可以对 ANOVA(方差分析)和 ANOVA-over-time 有更多了解,请提供反馈?我不确定我什至做得对,并且可能会遗漏一些简单的东西。确认或更正都值得赞赏。

请注意,这些是过去 30 天内的(命中、值、天数)的数组。例如,如果周一 Mozilla 的 Value-Of-Mozilla 有一个大峰值(相对于基线),而周二 Mozilla 的 Value-Of-Mozilla 有一个下降(低于基线),我希望 Mozilla 显示为“重要”属性(而不是峰值/下降相互抵消)

我的输入数据示例,在映射/减少之前:

这是我当前的代码——它在 Dumbo/Hadoop 上运行,并提供了一个我基本上发明了公式的“重要性”数字。虽然我的公式有效,并提供了有意义的数据,但我的“重要性”值定义不明确(“重要”属性的分数通常 >= 100,但这会随着数据集的大小而变化)而且我知道这可能有一个“真正的公式”。

提前致谢!

0 投票
2 回答
469 浏览

client - '-client' 对于 JAVA_OPTS 的意义是什么

我不是 JAVA_OPTS 方面的专家,但在我的 grails 应用程序中遇到与 Permgen 空间相关的错误。现在我收到了来自 grails 博客的建议,将 JAVA_OPTS 设置为这个值:

JAVA_OPTS="-client -Xmx256M $JAVA_OPTS"

我确实理解除“-client”之外的其他值。它的真正含义是什么?我在书中找不到它的意义。

0 投票
2 回答
3182 浏览

r - R中的显着性检验,确定单个变量中一列中的比例是否与另一列显着不同

我确信这是 R 中的一个简单命令,但由于某种原因,我无法找到解决方案。

我正在尝试在 R 中运行一堆交叉表(使用 table() 命令),每个选项卡都有两列(处理和不处理)。我想知道所有行的列之间的差异是否显着不同(这些行是调查中的少数答案选择)。我对整体意义不感兴趣,只在交叉表中比较治疗与不治疗。

这种类型的分析在 SPSS 中非常简单(下面的链接来说明我在说什么),但我似乎无法让它在 R 中工作。你知道我可以做到吗?

http://help.vovici.net/robohelp/robohelp/server/general/projects_fhpro/survey_workbench_MX/Significance_testing.htm

已编辑:这是 R 中关于我的意思的示例:

我有这样的表格^(按treatmentVar上的列百分比),我想看看从治疗0到治疗1的每个问题选择(行)之间是否存在显着差异。所以在上面的例子中,我会想知道 4 和 2(第 1 行)、3 和 3(第 2 行)以及 1 和 3(第 3 行)之间是否存在显着差异。所以在这个例子中,question1 的选择可能与选择 1 和 3 有显着差异(因为差异为 2),但选择 2 的差异不是因为差异为零。最终,我试图确定这种重要性。我希望这会有所帮助。

谢谢!

0 投票
1 回答
6476 浏览

python - 如何检测时间序列数据的变化是否不再显着?

我有一组有统计数据的新闻文章,例如:在某天范围内提及该文章的 Twitter 帖子数量。统计值的自然行为是新帖子的数量快速增长,然后随着新闻的老化而减少。

我想知道如何以一定的置信度计算整个数据集的统计数据变化不再显着(例如:< 总帖子的 0.1%)的天数。

您能否提供一些提示在哪里寻找信息和方法?我也很欣赏 Python 中的一些代码示例 :)

0 投票
2 回答
29770 浏览

r - 如何在箱线图中添加星号来表示重要性?

我试图在箱线图中的框的顶部或底部包含一个星号,表示执行自变量 t 检验评估后的重要性。如何将其添加到我的图表中?