问题标签 [envstats]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
55 浏览

r - EnvStats 模拟向量函数

我使用EnvStats包更具体地说是模拟向量函数从 pdf 生成随机样本。

我尝试使用 Normal pdf 并更改截断此 pdf 的参数:

令我惊讶的是,结果并没有变化……怎么了?谢谢

0 投票
2 回答
123 浏览

r - 使用函数 rosnerTest 聚合

我收到一个错误

当我尝试使用来自 EnvStats 包的 rosnerTest 时,“if (any(outlier)) { 中的错误:需要 TRUE/FALSE 的缺失值”。

我正在尝试使用聚合函数而不是使用 for 循环来进行 rosner 测试,因为我的数据有超过 1400 万条记录和大约 300 万个唯一项目。

0 投票
1 回答
964 浏览

r - 创建自定义几何图形以计算汇总统计数据并将它们显示在*绘图区域之外*

我是 R 包EnvStats的创建者。

有一个我经常使用的函数叫做stripChart. 我刚刚开始学习ggplot2,过去几天一直在研究 Hadley 的书、Winston 的书、StackOverflow 和其他资源,试图创建一个geom近似于实际的东西stripChart。我无法弄清楚如何在 中geom计算汇总统计数据和测试结果,然后将它们放置在 x 轴刻度线下方以及绘图顶部(绘图区域外)。这是一个使用内置数据集的简单示例mtcars

这是一个 geom 的早期草稿,试图重现 stripChart 的大部分功能:

您可以看到情节几乎相同。我遇到的问题是弄清楚如何在每组下方添加样本量,并在顶部添加均值和标准差,以及 ANOVA 测试的结果(此时忽略不等方差的问题) . 我知道计算汇总统计数据然后将它们绘制为绘图区域的点或文本很简单,但我不想这样做。

我已经找到了显示如何将文本放置在绘图之外的示例(例如,使用annotation_custom()):
如何在 ggplot2 的 x 轴下方添加注释?

在 ggplot2 生成的图下方显示文本

问题是示例显示了如何在用户预先定义注释的情况下执行此操作。我的问题是geom_stripchart,我必须根据调用中定义的数据计算汇总统计数据和测试结果ggplot(),然后将这些结果传递给annotation_custom(). 我不知道如何获取调用中定义的 x 和 y 变量ggplot()

0 投票
0 回答
295 浏览

r - 有界左偏态分布给出一个特定的平均值和 SD R

我正在寻求帮助来创建一个左偏分布,给出一个特定的平均值和标准偏差。EnvStats 包具有创建有界右偏分布的功能,如下所示,mean=2,sd=.9,lb=1,ub=5,但不是左偏。

0 投票
1 回答
247 浏览

r - 用于众多监测站的肯德尔季节性趋势测试的循环和子集,R 中的 EnvStats

使用EnvStats软件包中的 Kendall 季节性趋势测试来评估水质数据,但我无法将代码调整为:

  1. 返回单个站点/站点的趋势统计数据(到目前为止唯一有效的方法是对每个站点/变量组合进行子集化)

  2. 将输出合并为列表或其他紧凑形式

测试本身很简单:

由于要评估的变量和监测站点组合众多,因此必须有更好的方法。看起来 apply 家族在这里可能是相关的,但到目前为止还没有奏效:

但这并不完全有效,它返回整个数据集的测试统计信息,而不是按站点 ID。如果结果以列表形式出现,那就太好了

我尝试了 apply 系列的转换,但我也真的不明白它们。欣赏任何想法!

0 投票
0 回答
19 浏览

r - 如何将 ECDF 中绘制的点跟踪回 R 中的原始数据框?

所以我从5个数据框开始,分别对应不同的类别。让我们d1,d2,d3,d4,d5用代码定义它们:

我将这五个数据框组合成一个巨大的数据框:

all_data<-data.frame(d1, d2, d3, d4, d5)

然后我将这个大数据框转换为一个向量,以便与ecdfPlot代码一起使用:

all_data_v<-as.vector(t(all_data))

然后我在对数刻度上创建了一个 ecdf 图:

ecdfPlot(all_data_v,log="yx",xlim=c(0.01,1000),ylim=c(0.001,1))

我正在查看小于或等于 1 的点,特别是试图确定该范围内每个数据帧中存在的点的百分比。我的问题是:有什么方法可以将小于或等于 1 的点分开并将它们追踪回原始数据框?换句话说,找到小于或等于 1 的点并确定它们是否来自d1, d2, d3, d4 or d5

我试图添加返回它绘制的点的plot.it=FALSE参数ecdfPlot,但它没有告诉我这些点来自哪里。

任何帮助将不胜感激。

0 投票
1 回答
241 浏览

r - 在 R table1 包中使用自定义函数

我正在尝试使用 table1 包在 R 中构建数据汇总表。有谁知道是否可以指定要呈现的自定义函数而不是stats.default函数?我想使用 EnvStats 包中的 geoSD 和 geoMean 函数。有任何想法吗?

0 投票
2 回答
113 浏览

r - 如何更改 `stat_n_text` 函数中的值?

在我的数据集中标记样本大小时,我遇到以下问题:

我遇到的问题是我有前/后组:但这些是相同的主题,所以当我绘制stat_n_text它时,我的样本量会增加一倍,因为它会将前样本和后样本加在一起(将它们视为单独的主题)。有没有办法更新n,所以它将是其值的一半(在图片中,我希望 n = 11、7 和 14 分别用于 cyl 4,5 和 6)?

在此处输入图像描述

0 投票
0 回答
21 浏览

variance - EnvStats varTest 双边 p 值计算

我正在尝试将我的手动计算与 EnvStats 包 varTest() 函数进行比较。它不匹配,所以我查看了源代码并找到了 varTest() 函数使用的计算。

我不怀疑它为什么不同(见下文),但为什么这是一个合理的替代品。只要 n 相当大(这使得卡方分布更加对称),这种近似似乎是可以接受的。不过,对于小 n 来说,这可能会有些问题。这尤其成问题,因为近似值较小并且可能增加 I 类错误的可能性。

我错过了什么,或者这不是很正确吗?

0 投票
1 回答
30 浏览

r - 如何在函数中插入数据框,然后使用 tapply 按组分组

我是 R 编程新手,我制作了一个函数,可以从我们插入的列表或向量中返回一些基本统计信息。当我想插入数据框时,问题就来了。

我要插入的数据框有 2 列;第一个是指一组(1 或 2),第二个是指头骨的宽度,以厘米为单位(数值)。我想分别取两组的平均值,以便稍后我可以比较它们(1和2)、众数、中位数、四分位数......(我在函数中拥有的一切)。

我突然想到使用我制作的插入列表或向量的函数,然后对我进行分组,使用 tapply 函数,但它通过控制台给了我一个错误,这个:

在这里,您拥有我所做的功能和 tapply:

我可以改进我的功能,以便让我输入数据框?或者我可以在 tapply 函数中做些什么来让它对我有用?有人可以帮我解决这个问题吗?我也接受其他想法,我尝试过聚合和汇总函数等,但它没有给我想要的统计数据,比如皮尔逊系数。

非常感谢您,问候