问题标签 [cluster-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4102 浏览

algorithm - 您如何根据文本内容进行分类?

如何根据内容自动查找文本类别?

0 投票
4 回答
28953 浏览

algorithm - 地图应用的聚类算法

我正在研究地图上的聚类点(纬度/经度)。对于快速且可扩展的合适算法是否有任何建议?

更具体地说,我有一系列纬度/经度坐标和一个地图视口。我正在尝试将靠近的点聚集在一起以消除混乱。

我已经有了问题的解决方案(见这里),只是我想知道是否有任何正式的算法可以有效地解决问题。

0 投票
5 回答
7530 浏览

algorithm - 分布式层次聚类

是否有任何算法可以帮助进行层次聚类?Google 的 map-reduce 只有一个 k-clustering 的例子。在层次聚类的情况下,我不确定如何在节点之间划分工作。我发现的其他资源是:http: //issues.apache.org/jira/browse/MAHOUT-19 但是使用了哪些算法并不明显。

0 投票
3 回答
481 浏览

cluster-analysis - 如何可视化用户集群?

我有一个用户相互交互的应用程序。我想可视化这些交互,以便确定是否存在用户集群(其中交互更频繁)。

我为每个用户分配了一个 2D 点(每个坐标都在 0 和 1 之间)。我的想法是,两个用户的点在交互时会靠得更近,这是一种“吸引力”,我只是一遍又一遍地浏览我的交互日志。

当然,我需要一种“排斥力”来将用户也分开,否则他们将全部坍塌成一个点。

首先,我尝试监控每个 XY 坐标的最低和最高,并将它们的位置归一化,但这没有奏效,少数交互次数很少的用户停留在边缘,其余的都崩溃到中间。

有谁知道我应该使用什么方程来移动这些点,既可以用于用户交互时的“吸引力”,也可以使用“排斥”力来阻止它们全部坍缩成一个点?

编辑:在回答一个问题时,我应该指出我正在处理大约 100 万用户,以及大约 1000 万用户之间的交互。如果有人可以推荐一个可以为我做到这一点的工具,我会全力以赴:-)

0 投票
7 回答
397 浏览

theory - 根据评分为用户生成“邻居”

我正在寻找为我正在开发的网站上的用户生成“邻居”(具有相似品味的人)的技术;类似于 last.fm 的工作方式。

目前,我有一个可以发挥作用的用户兼容功能。它根据 1) 对相似项目的评分 2) 对项目的相似评分对用户进行排名。该函数的权重为第 2 点,如果我在生成“邻居”时仅使用这些因素之一,这将是最重要的。

我的一个想法是只计算每个用户组合的兼容性,并选择评价最高的用户作为用户的邻居。这样做的缺点是随着用户数量的增加,这个过程可能需要很长时间。对于仅 1000 个用户,它需要 1000C2 (0.5 * 1000 * 999 = = 499 500) 次调用兼容性功能,这对服务器来说也可能非常繁重。

所以我正在寻找关于如何最好地实现这样的系统的任何建议、文章链接等。

0 投票
8 回答
12372 浏览

session - 如何管理 Web 集群中的会话变量?

会话变量通常保存在 Web 服务器 RAM 内存中。

在集群中,客户端发出的每个请求都可以由不同的集群节点处理。正确的?!

所以,在这种情况下...

  • 会话变量会发生什么?它们不是存储在节点 RAM 内存中吗?
  • 如果其他节点没有我的会话变量,或者至少没有我的会话变量,其他节点将如何正确处理我的请求?
  • 这个问题是由 Web 服务器(Apache、IIS)还是由语言运行时(PHP、ASP.NET、Ruby、JSP)处理的?

编辑: Classic ASP有什么解决方案吗?

0 投票
7 回答
11893 浏览

database - 在数据库中聚类纬度/经度

我正在尝试查看是否有人知道如何使用数据库对一些经纬度结果进行聚类,以减少通过线路发送到应用程序的结果数量。

有许多关于如何集群的资源,无论是在客户端还是在服务器(应用程序)端......但不是在数据库端:(

这是一个类似的问题,由 SO 成员提出。解决方案是基于服务器端的(即背后的 C# 代码)。

有没有人有解决这个问题的运气或经验,但在数据库中?是否有任何数据库专家正在接受一个轴和性感的数据库挑战?

请帮忙 :)

编辑1:澄清 - 通过聚类,我希望将x多个点分组为一个区域的单个点。因此,如果我说将所有内容聚集在 1 英里/1 公里的正方形中,那么该“正方形”中的所有结果都将 GROUP'D 组合成一个结果(例如...正方形的中间)。

编辑 2:我正在使用 MS Sql 2008,但我愿意听取其他数据库中是否有其他解决方案。

0 投票
3 回答
2964 浏览

scripting - 使用 psexec 的嵌套调用出现问题(访问被拒绝)

首先,对不起我糟糕的英语。我会尝试解释我的问题。

我在脚本中使用 psexec 来重新启动集群,如下所示:

node1 中的 script1:在 node1 中执行大量任务(关闭服务、检查状态等),并在使用 psexec 完成所有任务启动后,在 node2 中执行 script2(psexec-d \ node2 script2)

node2 中的 script2:执行大量任务并在 node1 中启动 script3。这是,当我尝试在 node1 中运行 script3 时,我在 psexec 中收到“拒绝访问”。(psexec -d \\ nodo1 script3)

我使用属于组管理员的用户启动脚本

出于安全原因,我无法传递用户名和密码,因为将凭据留在 .bat 文件中是不安全的。

附加信息:

我在 W2k3 服务器上运行脚本 我尝试了 net use 并且一切正常 我尝试了带有 -u 用户名和 -p 用户名的 psexec 并且一切正常 我尝试使用以下语法执行 psexec: psexec .exe -d \node1 cmd.exe "script3.bat" 并返回相同的错误。

非常感谢

0 投票
5 回答
5839 浏览

algorithm - 如何按邻近度对集合中的对象进行分组?

我有一个包含数千个地址的集合。如果我可以得到每个地址的经度和纬度,我如何按接近度将集合分成组?

此外,我可能想根据不同的规则重试“集群”:

  • N组
  • 每组 M 个地址
  • 组中任何地址之间的最大距离
0 投票
17 回答
5427 浏览

algorithm - Paper Boy 的聚类算法

我需要根据特定标准选择或创建聚类算法的帮助。

想象一下,您正在管理送报人员。

  • 您有一组街道地址,每个地址都经过地理编码。
  • 您希望对地址进行集群,以便将每个集群分配给一名送货员。
  • 送货人员或集群的数量不是固定的。如果需要,我总是可以雇佣更多的送货员,或者解雇他们。
  • 每个集群应该有大约相同数量的地址。但是,如果集群的地址更加分散,则集群的地址可能会更少。(换种说法:最小数量的集群,其中每个集群包含最大数量的地址,并且集群内的任何地址必须相隔最大距离。)
  • 对于奖励积分,当数据集被更改(添加或删除地址)并且算法重新运行时,如果集群尽可能保持不变(即,这排除了简单的 k-means 聚类,即随机性)。不然快递员会发疯的。

所以……想法?

更新

如 Arachnid 的回答中所述,街道网络图不可用。