我有一个 TFIDF 向量,它保存在数据库内的 MYSQL 表中,该表具有以下架构:
id | docid | word | weight | class/label | timestamp
1 | 1 | argon | 0.2123 | pos | 2013-03-25 16:22:48
2 | 1 | apple | 0.1523 | pos | 2013-03-25 16:22:48
3 | 2 | orange | 0.8823 | pos | 2013-03-25 16:22:48
4 | 2 | diffuse | 0.9812 | pos | 2013-03-25 16:22:48
5 | 3 | master | 0.2653 | neg | 2013-03-25 16:22:48
6 | 3 | mouse | 0.7623 | neg | 2013-03-25 16:22:48
所有文档的向量垂直位于同一张表上,并按docid
字段区分
我想将它们加载到 RapidMiner 中,以便为 pos 和 neg 类构建分类器,据我所知,RapidMiner 中的分类器模型接受的格式是每个文档水平地连续表示,如下所示:
docid | class/label | argon |apple | orange | diffuse | ....
1 | pos | 0.154 |0 | 0.1326 | 0.7741 | ....
2 | pos | 0.545 |0 | 0 | 0.77 | ....
3 | neg | 0.565 |0.122 | 0.1555 | 0 | ....
我可以编写一些代码来完成这项任务并将它们保存在 CSV 文件中,然后将它们上传到 rapid miner,我希望在 rapid miner 中执行更快的任务。通过使其接受第一种格式或将其更改为第二种甚至是 MYSQL 查询来做到这一点。
考虑到向量表非常大(大约 500 mb),因此可扩展性是一个问题