6

我正在使用 Orange(在 Python 中)执行一些数据挖掘任务。更具体地说,用于聚类。尽管我已经阅读了教程并阅读了大部分文档,但我仍然有一个问题。文档和教程中的所有示例都假设我有一个制表符分隔的表格,其中包含数据。但是,没有什么可以说明如何从头开始创建新表。例如,我想为不同文档中的词频创建一个表。

也许我错过了一些东西,所以如果有人有任何见解,将不胜感激。

谢谢乔治

编辑:

这就是我创建表的方式

#First construct the domain object (top row)
vars = []
for var in variables:
    vars.append(Orange.data.variable.Continuous(str(var)))
domain = Orange.data.Domain(vars, classed) #The second argument indicated that the last attr must not be a class    
#Add data rows assuming we have a matrix 
t = Orange.data.Table(domain, matrix)        
4

2 回答 2

5

这花了我几个小时才弄清楚。在 python 中,执行以下操作:

Import Orange
List, Of, Column, Variables = [Orange.feature.Discrete(x) for x in ['What','Theyre','Called','AsStrings']]
Domain = Orange.data.Domain([List, Of, Column, Variables])
Table = Orange.data.Table(Domain)
Table.save('NewTable.tab')

我会告诉你每一段代码的作用,但到目前为止我还不确定。有趣的是,如此强大的工具包应该有如此难以理解的文档,但我怀疑这是因为它的整个用户群都有博士学位。

于 2012-07-04T22:06:11.503 回答
2

如果您问我,文档确实不足。这可能不是问题的答案,但可能对其他人有帮助。我尝试了几个小时使用构造函数和域创建一个表,只是为了一个关联规则挖掘任务,最后发现创建表的最简单方法是将数据写入扩展名为 .tab 的文件或 .basket 并从中创建一个表。

Orange.data.Table("yourFile.basket")

当然,文件的结构需要正确。请参阅位于datasets/内的 Orange 包目录中提供的示例文件

于 2014-10-29T15:23:46.593 回答