1

我不确定我是否在正确的地方问这个问题,因为我是stackoverflow的新手,如果需要,请移动。

我正在尝试解决 Flickr 数据集的链接预测问题。我的数据集有 5K 个节点,每个节点有大约 27K 个特征,它是稀疏的。

我想找到节点之间的相似性,以便如果相似性值大于我决定的某个阈值,我可以预测它们之间的链接。问题在于特征的数量。我无法在 Weka 中加载文件(尝试通过一些信息增益或其他东西来减少功能,然后尝试聚类或检查余弦相似度测量)

另一个问题是,如何将其定义为分类问题?我想找到两个节点的重叠标签,因此该表包含节点和它们的一些特征(将有数千个),并且所有这些都将是正类,因为我知道它们之间存在链接。

我想用一些节点创建一个测试数据集,并创建类似的表并将它们标记为正类或负类。但我的问题是我拥有的所有数据都是正面的,所以我认为它永远无法标记为负面。如何正确地将其更改为分类问题?

非常感谢任何指示或帮助。

4

1 回答 1

0

Weka 可以处理 27K 特征,这不应该是一个问题......但是,我会将这个问题视为一个分类问题,而是一个链接发现问题,在这种情况下可以看作是一个匹配问题。

我的方法是: 1. 出现新节点 2. 搜索最相似的元素 3. 如果相似度大于您的阈值,则假设它们是相关的(有链接)。

主要问题是根据某些质量度量调整阈值。

对于这种方法,Lucene 可能是最好的选择。

我希望这有帮助。

于 2013-04-22T13:14:10.680 回答