4

我正在从事一个名为“从社交网络数据中发现关联规则:将数据挖掘引入语义网”的项目。任何人都可以建议一个算法(及其代码。我听说它可以使用 Perl 和 R 包实现)以从社交网络数据库中查找关联规则的良好来源吗?

可以在以下链接中获取数据库的快照:https ://docs.google.com/uc?id=0B0mXGRdRowo1MDZlY2Q0NDYtYjlhMi00MmNjLWFiMWEtOGQ0MjA3NjUyZTE5&export=download&hl=en_US

该数据集可通过以下链接获得:http ://ebiquity.umbc.edu/get/a/resource/82.zip

我已经搜索了很多关于这个项目的信息,但不幸的是还没有找到有用的东西。我发现以下链接有些相关:

犯罪数据: http: //www.computer.org/portal/web/csdl/doi/10.1109/CSE.2009.435

您的帮助将不胜感激。

谢谢你,

4

3 回答 3

4

好吧,原始关联规则算法(最初由 IBM Almaden 研究中心开发)最广泛使用的实现是 Apriori 和 Eclat,尤其是 Christian Borgelt 的 C 实现。

(对于不熟悉关联规则(又名“常用商品集”或“市场购物篮分析”)的任何人的简要总结。关联规则的原型应用程序是分析消费者交易,例如超市数据:在购买波兰香肠的购物者中,有多少百分比其中还购买了黑面包?)

我会推荐统计平台,R。它是免费和开源的,它的包存储库包含(至少)四个专门针对关联规则的库,所有这些库都具有出色的文档——四个包中的三个包括一个手册和一个单独的Vignette(带有代码示例的非正式散文文档)。手册和小插图都包含大量 R 代码示例。

我已经使用了以下四个包中的三个,我可以高度推荐这三个。其中包括 Eclat 和 Apriori 的绑定。这些库作为 R 'Packages' 分发,可在R 的主要包存储库CRAN上获得。R 的基本安装和设置很简单——上面的链接提供了适用于 Mac、Linux 和 Windows 的二进制文件。同样,包安装/集成就像您对集成平台所期望的一样简单(尽管并非下面列出的四个包中的每一个都具有适用于每个操作系统的二进制文件)。

所以在CRAN上,你会发现这些包都只针对关联规则:


这组四个 R 包由四个不同关联规则实现的 R 绑定以及一个可视化库组成。

第一个包arules包括 Eclat 和 Apriori 的 R 绑定。第二个,arulesNBMiner,是 Michael Hahsler 的关联规则算法NB 频繁项集的绑定。第三个是arules Sequences,是 Mohammed Zaki 的cSPADE的绑定。

最后一个特别有用,因为它是一个可视化库,用于绘制前三个包中的任何一个的输出。对于您的社交网络研究,我怀疑您会发现图形可视化——即节点(数据集中的用户)和边(它们之间的连接)的显式可视化。

于 2011-04-18T10:58:48.263 回答
2

这比http://en.wikipedia.org/wiki/Association_rule_learning更广泛,但希望有用。

一些可能有趣的早期 FOAF 工作(SVD/PCA 等):

http://stderr.org/~elw/foaf/ http://www.scribd.com/doc/353326/The-Social-Semantics-of-LiveJournal-FOAF-Structure-and-Change-from-2004-to -2005 http://datamining.sztaki.hu/files/snakdd.pdf

http://www.amazon.com/Understanding-Complex-Datasets-Decompositions-Knowledge/dp/1584888326的第 4专门介绍矩阵分解技术对图形数据结构的应用;强力推荐。

最后,Apache Mahout 是大规模数据挖掘、机器学习等的自然选择,https://cwiki.apache.org/MAHOUT/dimensional-reduction.html

于 2011-05-31T06:11:49.987 回答
0

If you want some Java code, you can check my website for the SPMF software. It provides source code for more than 45 algorithms for frequent itemset mining, association mining, sequential pattern mining, etc.

Moreover, it does not only provide the most popular algorithms. It also offers many variations such as mining rare itemsets, high utility itemsets, uncertain itemsets, non redundant association rules, closed association rules, indirect association rules, top-k association rules, and much more...

于 2012-04-15T19:15:49.640 回答