我想使用 R 对数据进行层次聚类,如下所示:
L1 L2 L3
W1 p pr r
W2 p NA r
这应该意味着 L2 与 L1 和 L3 共享特征 W1,而特征 W2 存在于 L1 和 L3 中,但具有不同的值,并且在 L2 中缺失。(编辑L 是语言,W 是这些语言中的词干,值(p、r 等)描述了这些词如何在特定语言中派生出来。我相信一个词在不同的语言可能暗示共同的起源。当它丢失时,不清楚:它可能意味着什么,或者我的来源可能不完整,但我想我必须谨慎地假设第一个选项。最终目标是根据什么对语言进行分类茎存在于它们中,以及它们的行为方式。结束编辑)
您能否解释一下我如何转换这些数据以便能够对它们进行分类,并建议我应该使用什么相似度指数?