2

我最近编写了一个脚本,用于从 Twitter 的流 API中捕获大量地理数据。我正在寻找某种方法来创建一个模型,以使用数据作为训练输入来表示世界上任何给定 lat/lng 点的地理“活动”。

我正在考虑将所有 lat\lng 舍入到小数点后两位,并创建所有位置出现的二维直方图。因此用于训练我的模型的输入将是:

x = lat - input
y = lng - input
z = location weight - observed output [normalized between 0.0 and 1.0]

我正在考虑创建 24 个模型(每小时 1 个)来模拟社交网络活动取决于一天中的时间这一事实。这也会将事物简化为 3-d 而不是 4-d。

问题:

  • 曲线拟合上述问题的最佳方法是什么?
  • 是否有一个现有的库可以用来输入 x、y、z 并吐出最佳拟合回归方程?我熟悉 Ruby、Python、Java 或 Scala。示例代码将不胜感激。
4

2 回答 2

1

K-Means 聚类算法在这里可能会有所帮助。考虑到所有推文的纬度和经度,它可以用来计算推文集群的位置。

于 2013-05-07T14:29:00.313 回答
0

这是我将采取的方法。您应该建立一个回归模型,至少具有以下预测变量:纬度、经度、(纬度、经度)的人口密度、时间(可能是分类的)和任何其他相关特征。您正在对某种活动进行倒退。

就 python 库而言,我可以为您提供帮助:如果您想构建标准线性模型(可能不是,但您可以将其用作起点),statsmodels是一个不错的起点。您至少可以在一些测试数据上获得 MSE。

鉴于模型可能很复杂并且会有很多交互,您可能希望将其与神经网络回归模型之类的东西进行比较——如果是这样,pybrain很容易设置来做这种事情。

于 2013-05-07T15:11:05.723 回答