我是 R 的初级用户,我正在研究一项让我有些难过的任务。我有一个数据集,其中一列列出了数千份(本地)报纸的标题,另外两列列出了报纸总部附近县的报纸发行量(使用每个县的唯一县 ID 而不是潜在的非唯一县名)。
因此,有时一份报纸占据五行或更少,有时甚至十行或更多,这取决于周边县的发行量。我需要做的是将给定论文的发行量最高的县的县 ID 与对应于该论文的所有行相关联。也就是说,以在相似地区流通的三种报纸为例,
Paper CountyID Circulation MaxCountyID
Times 1 1000 2
Times 2 2000 2
Times 3 500 2
Chronicle 1 5000 1
Chronicle 2 4000 1
Chronicle 3 1000 1
Tribune 1 900 1
Tribune 3 700 1
尽管在实际数据集中发行量自然远不如这个,但考虑到它的庞大规模,我预计至少在几个情况下我会遇到最高发行量,所以我认为我需要以某种方式处理这种可能性也是如此;任何绑定的县都可以显示为 MaxCounty。
编辑:我需要做的第二部分也是最后一部分是(根据我现在所拥有的)生成一个三列数据集,该数据集在每一行中指定来自 x 县的论文在 y 县的总发行量,其中“来自 x 县的论文”被定义为表示“x 县是 max.county 的所有论文”。