我有许多坐标点,每个坐标点都与一个特定的地标相关联,但是它们具有不同且未知的准确度。对于这些地标中的每一个,我都有访客说他们“在地标”时的坐标。
我想使用“地标”坐标来提高未来访客地标的准确性。但是,当我更改聚类算法的参数时,我真的无法知道平均而言,我是否正在提高实际改进现有位置的可能性。
我想创建一个可以用作代理的目标函数 - 有什么想法吗?
请注意,由于地标的地址不完善,谷歌地图 API 调用可能不可靠。
我有许多坐标点,每个坐标点都与一个特定的地标相关联,但是它们具有不同且未知的准确度。对于这些地标中的每一个,我都有访客说他们“在地标”时的坐标。
我想使用“地标”坐标来提高未来访客地标的准确性。但是,当我更改聚类算法的参数时,我真的无法知道平均而言,我是否正在提高实际改进现有位置的可能性。
我想创建一个可以用作代理的目标函数 - 有什么想法吗?
请注意,由于地标的地址不完善,谷歌地图 API 调用可能不可靠。
一个例子是高斯混合模型的后验。你可以在这里找到一些例子:https ://ch.mathworks.com/help/stats/clustering-using-gaussian-mixture-models.html
当然还有其他的聚类算法。你用的是哪一个?
如果您想将所有这些用户标签减少到一个坐标,我建议(日期线除外)简单地使用中位数。
原因是中位数具有非常高的分解点,即对异常值具有鲁棒性。