我最近注册了 Census API ( http://www.census.gov/developers/ ) 的开发人员密钥,并将使用 Python 包装类来访问 Census 数据库。
我还可以访问分布在美国的 100 多个机场站的每日平均气温和预报数据(这些站主要代表美国人口,因为它们位于主要城市)。以最少的假设,将美国的整个人口映射到 100 多个机场的集合上的最佳方法是什么,以便我可以得出人口加权平均温度?这可能需要某种距离/气候功能。这样做时我应该考虑哪些细微差别?
我最近注册了 Census API ( http://www.census.gov/developers/ ) 的开发人员密钥,并将使用 Python 包装类来访问 Census 数据库。
我还可以访问分布在美国的 100 多个机场站的每日平均气温和预报数据(这些站主要代表美国人口,因为它们位于主要城市)。以最少的假设,将美国的整个人口映射到 100 多个机场的集合上的最佳方法是什么,以便我可以得出人口加权平均温度?这可能需要某种距离/气候功能。这样做时我应该考虑哪些细微差别?
(1) 听起来您需要类似于Voronoi 镶嵌的东西, 但建立在邮政编码区域而不是连续空间上。本质上,您需要将每个邮政编码区域分配给“最近的”机场,然后根据所有附近邮政编码中的人口比例对机场的观察结果进行加权。(我假设人口普查数据是按邮政编码组织的。)我用引号说“最近”是因为可能有不同的考虑方式;例如,到地区地理中心的距离,到地区人口中心的距离,从中心到机场的旅行时间,可能还有其他。您可能可以使用蛮力算法将邮政编码分配给机场:只需遍历所有邮政编码并找到您选择的意义上“最近”的机场。这可能会很慢,但您只需执行一次(好吧,对于“最近”的每个定义一次)。
(2) 您可能会在CrossValidated上对这个问题获得更多关注。