algorithm - 如何使用非标量输入数据/属性实现 Kohonen 映射 (SOM)

Question

通常，仅使用实值向量实现 Kohonen 映射/SOM 算法是一项相对简单的任务。由于“权重更新”阶段，我想知道如何为文本字符串等非实值（即非标量）属性实现这种算法。

假设有一组数据包含不同长度、含义类别以及浪漫程度的单词，例如rose（非常浪漫）、flower（浪漫）、plant（浪漫取决于上下文）、factory（仅浪漫）蒸汽朋克）。我在编造，所以请忽略细节。（编辑：是的，浪漫性可以表示为一个标量值；我的问题实际上与那部分无关。）

可以打乱单词甚至字母以在地图上创建原型，然后使用 Levenshtein 距离来找到最佳匹配单元，我明白了。但是如何将BMU 及其邻域更新为选定的目标向量？

其他示例可能是嵌入一维（标量）数据流中的绘画（例如，按颜色、主题、时代……）或感知形状（例如三角形、锯齿……）。

score 0 · Accepted Answer

这些浪漫程度不只是一个数字吗？“这朵玫瑰是0.9浪漫”。然后在 SOM 中为您的 0.9 找到正确的位置，这就是您的玫瑰应该坐的位置。如果你有多个维度，它基本上是一个向量，但仍然是一个数字向量，而不是一个字符串，因此更容易更新

1 回答 1