我不确定我是否在正确的地方问这个问题,因为我是stackoverflow的新手,如果需要,请移动。
我正在尝试解决 Flickr 数据集的链接预测问题。我的数据集有 5K 个节点,每个节点有大约 27K 个特征,它是稀疏的。
我想找到节点之间的相似性,以便如果相似性值大于我决定的某个阈值,我可以预测它们之间的链接。问题在于特征的数量。我无法在 Weka 中加载文件(尝试通过一些信息增益或其他东西来减少功能,然后尝试聚类或检查余弦相似度测量)
另一个问题是,如何将其定义为分类问题?我想找到两个节点的重叠标签,因此该表包含节点和它们的一些特征(将有数千个),并且所有这些都将是正类,因为我知道它们之间存在链接。
我想用一些节点创建一个测试数据集,并创建类似的表并将它们标记为正类或负类。但我的问题是我拥有的所有数据都是正面的,所以我认为它永远无法标记为负面。如何正确地将其更改为分类问题?
非常感谢任何指示或帮助。