3

我有一个具有“n 到 m”关系的数字数据集(作为数据库表)。例如:

A | B
-----
1 | 1
1 | 2
1 | 9
4 | 2
7 | 8
7 | 11

而且我想“训练”一个分类器(使用 weka?)来告诉我哪个 A 最有可能成为一组 B。举个例子:[1,2,8] 应该告诉我一些类似于 {1:2, 4:1, 7:1} 的内容,即:“集合是在 AN 时代找到的”

我当然可以用 sql 和我最喜欢的脚本语言来实现它。但是,我想知道是否有更多 - 我猜是“正式的” - 方式来做到这一点。我有 weka 正在运行,并且我的数据库已连接,但是我迷失了要采用哪个分类器(许多拒绝服务),我也非常感谢一些理论背景的链接(例如,它叫什么我喜欢做的事情和存在哪些改进)。

如果您在 R 中更通用,我也会欣赏“R”方式。(但是,我不仅对解决我的问题感兴趣,而且对了解这是什么类型的问题感兴趣——我会通过 weka 解决方案。)我很抱歉如果这是一个重复的问题,但遗憾的是我缺乏信息来指定我在这里寻找什么。可视化和其他学习和研究的输出会很棒,你。

我提前感谢您,只是为了阅读并希望您能提供帮助。

4

1 回答 1

1

在 R 中,您可以执行以下操作:

foo = data.frame(A=c(1,1,1,4,7,7),B=c(1,2,9,2,8,11))
foo
#   A  B
# 1 1  1
# 2 1  2
# 3 1  9
# 4 4  2
# 5 7  8
# 6 7 11

table(foo[foo$B %in% c(1,2,8),]$A)

# 1 4 7 
# 2 1 1 

你还需要什么吗?

于 2012-11-18T23:05:04.440 回答