问题标签 [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 Amazon EC2 上为 Java Web 应用程序构建简单、可扩展的集群的最佳实践
我想构建一个 Java Web 应用程序并将其部署在EC2上。它将用 Java 编写并使用 MySQL。我希望获得有关实际部署过程和配置的一些指示。特别是我对以下主题感兴趣:
- 机器图像(DIY 与现成的)
- mysql复制和备份到S3
- 在不中断的情况下将应用程序部署和重新部署到EC2的方法
- 防火墙?
- 负载均衡和自动缩放
- cloudtools(或替代工具)
c++ - 在 Visual C++ 中使用 C Cluster 库
是的,所以我正在尝试在 C++ 中使用 C 库,但在我认为这是在外部“C”下声明头包含并将编译为标志设置为“默认”的情况之前从未真正这样做过,但我m 仍然出现链接器错误,并认为可能必须将头文件编译为 DLL。我真的不知道。
是图书馆的问题还是我的问题?cluster-1.47\src 中有一些 make 文件,但我不知道它们如何或是否与“cluster.h”相关。我已经上传了一个 Visual Studio 2008 项目供任何人参考,任何帮助都将不胜感激,因为我现在一直在碰壁。
谢谢
斯特凡
algorithm - 寻找最近向量的算法
我有一组向量。对于该集合中的向量,我喜欢找到最接近该向量的子集。什么算法可以做到这一点。
cluster-analysis - 余弦相似度度量:多个结果
我的程序使用聚类来生成相似项目的子集,然后使用余弦相似度度量作为确定聚类相似程度的方法。例如,如果用户 1 有 3 个集群,用户 2 有 3 个集群,则每个集群相互比较,将产生 9 个使用余弦相似度度量的结果,例如 [0.3, 0.1, 0.4, 0.12, 0.0, 0.6, 0.8, 1.0, 0.22]
我的问题是,基于这些结果,我如何将这些值转化为有形的结果,以显示这两个用户的相似程度?
我制作的一个简单方法是将所有值除以比较次数,然后将它们加在一起得到 1 个值,但这是一种非常简单的方法。
谢谢,
作为
我试图实现的基本描述是,是否有可能从社交书签网络服务 Delicious.com 中确定两个用户的书签和标签有多相似。
到目前为止,我已经根据用户书签的标签和每个标签的共现创建了集群,例如一个集群可以是:
另一个用户可能有一个从他们的标签产生的类似集群:
该数字表示标签在保存的书签中与此示例中的标签“水果”共同出现的次数。
我已经使用余弦相似度度量来比较这些集群以确定它们的相似程度,并且从我最初的问题来看,有许多集群比较结果(将每个用户集群与另一个用户集群进行比较)我不确定如何聚合结果以产生有意义的结果。
很有可能我一直不正确地使用余弦相似度,
c# - 客户端服务器架构问题
我正在开发一个客户端服务器系统,并且遇到了多个客户端同时执行一个操作的问题。我们可以通过锁定代码的关键部分来解决这个问题,这样可以确保第一个客户端在第二个客户端进入代码块之前完成操作。我的问题是:我们的服务器也是集群的,因此服务器本身可以存在多个实例,这会重现与以前相同的问题。我们如何解决这个问题?谢谢!
扩展问题:第一个用户正在检查一个操作是否有效并得到一个是的响应。第二个用户正在检查一个动作是否有效,并且在第一个用户完成他/她的动作之前得到一个是的响应。但是第一个用户的操作应该使第二个用户的操作无效。问题是每个用户几乎同时进行检查。
matlab - MATLAB:绘制质心
我的主要问题是给定一个特征质心,如何在 MATLAB 中绘制它?
更详细地说,我有一个NxNx3
图像(RGB 图像),我获取块并为每个块4x4
计算一个维特征向量。6
我将这些特征向量存储在一个Mx6
矩阵中,在该矩阵上运行kmeans
函数并获得kx6
矩阵中的质心,其中k
是簇6
数,是每个块的特征数。
如何在我的图像中绘制这些中心簇,以便可视化算法是否按照我希望的方式执行?或者,如果有人对如何可视化图像上的质心有任何其他方式/建议,我将不胜感激。
graph - 聚类问题到图论语言的翻译
我有一个矩形平面网格,每个单元格都分配了一些整数权重。我正在寻找一种算法来识别具有高于平均重量的 3 到 6 个相邻单元格的集群。这些斑点应具有近似圆形。
对于我的情况,不包含集群的单元格的平均权重约为 6,而包含集群的单元格的平均权重约为 6+4,即在 6 左右的某处存在“背景权重”。权重随泊松统计量波动。
对于小的背景贪婪或种子算法执行得相当好,但是如果我的集群单元的权重接近背景波动,这就会崩溃,即即使没有任何东西,它们也会倾向于找到一个集群。此外,我无法对所有可能的设置进行暴力搜索,因为我的网格很大(大约 1000x1000),我计划经常这样做(10^9 次)。我的印象是在图论中可能存在解决这个问题的方法。我听说过顶点覆盖和派系,但不知道如何最好地将我的问题翻译成他们的语言。我知道图论可能在输入的统计性质方面存在问题,但我很想看看那里的算法可以找到什么,即使它们无法识别每个集群。
这是一个示例裁剪:框架区域每个单元格平均有 10 个条目,所有其他单元格平均有 6 个。当然,网格会进一步扩展。
java - 在同一集群中运行的 Web 应用程序之间共享事务
我们(将)拥有以下架构:
Base.war
将是一个独立的 spring-hibernate 应用程序- 所有应用程序都将在 Glassfish 下运行,并且可能是集群的
E1.war
将位于 之上Base.war
,扩展其功能- 可能有更多的扩展(
E2.war
,,,E3.war
...)Base.war
- 任何一场战争都可以开始交易,交易可以跨越战争
- 无需关闭
Base.war
或任何其他E
x.war
,应该可以升级任何E
y.war
spring-hibernate-glassfish 环境是否有解决方案?
python - 分发许多简单网络任务的解决方案?
我想创建某种分布式设置,用于在生产环境中运行大量小型/简单的 REST Web 查询。对于从一个节点执行的每 5-10 个相关查询,我将生成非常少量的派生数据,这些数据需要存储在标准的关系数据库(例如 PostgreSQL)中。
为此类问题集构建了哪些平台?性质、数据大小和数量似乎与 Hadoop 的思维方式相矛盾。还有更多基于网格的架构,例如我已经提到的 Condor 和 Sun Grid Engine。我不确定这些平台是否可以从错误中恢复(检查作业是否成功)。
我真正想要的是一个 FIFO 类型的队列,我可以将作业添加到其中,并更新我的数据库的最终结果。
关于这项工作的最佳工具有什么建议吗?
algorithm - 如何计算此聚类中总误差的度量
这是关于k-means聚类算法的问题。我有以下几点和数据S1的聚类。谁能告诉我如何计算与此聚类相关的总误差?我知道这不是一个严格的编程问题,但我的算法需要它。我认为答案应该是 4/3,但我不知道如何计算。谁能帮我?