1

我是 R 的新手,任何人都可以帮我绘制数据集的箱线图,例如:

文件 1

     col1 col2     col3     col4  col5
050350005  101   56.625   48.318 RED    
051010002  106   50.625   46.990 GREEN    
051190007   25   65.875   74.545 BLUE    
051191002  246   52.875   57.070 RED    
220050004   55   70       80.274 BLUE    
220150008   75   67.750   62.749 RED    
220170001   77   65.750   54.307 GREEN

文件2

     col1 col2     col3     col4  col5
050350005  101   56.625   57     RED
051010002  106   50.625   77     GREEN    
051190007   25   65.875   51.6   BLUE    
051191002  246   52.875   55.070 RED    
220050004   55   70       32     BLUE    
220150008   75   67.750   32.49  RED
220170001   77   65.750   84.07  GREEN

对于每种颜色(红色、绿色和蓝色),我需要通过将文件 1 和文件 2 的 MB 和 RMSE划分为不同的组col4来比较文件 1 和文件 2:col3col2

如果 col2<20,20<=col2<50, 50 <= col2 <70, col2 >=70。

也就是说,对于箱线图,x 是 (<20, 20-50,50-70, >70),而 y 是col4col3

我希望我没有混淆任何人。太感谢了。

4

1 回答 1

1

我认为关于箱线图的作用可能会有些混乱。虽然可以在 x 轴上创建组,但据我所知,y 轴显示某个度量的分布(在您的情况下,我假设 col3 或 col4),而不是这些测量的 RMSE 或 MBE,这将是每个组的单个值。

我不确定您的分组变量(对于 x 轴)是 col5、您为 col2 列出的文件或标准,还是全部?无论如何,您需要更多数据才能使这些图有意义。

这是按 col5 和文件分组的 col3 箱线图的基本示例:

col3 = c(56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750, 56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750)
col5 = c("RED", "GREEN", "BLUE", "RED", "BLUE", "RED", "GREEN", "RED", "GREEN", "BLUE","RED","BLUE","RED","GREEN")
myfile = c(1,1,1,1,1,1,1,2,2,2,2,2,2,2)
mydata = data.frame(col3, col5, myfile)
boxplot(col3 ~ col5 + myfile, data = mydata)

请注意,由于案例数量有限,您看不到某些类别的须线,也看不到异常值。您需要更多数据才能使该图有用,现在它显示的只是中位数的比较。

你能澄清一下你希望情节会显示什么吗?

于 2010-11-17T15:11:34.633 回答